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创新 ! 大 量 实际 课题 来 自发 表 的 SCI 文 章 ， 全 部 都 是 “ 真 枪 实弹 ”， 
不 杜撰 所 谓 “ 实 际 应 用 ”。 
国内 首部 与 SCI 文 章 紧密 结合 的 生物 信息 书籍 。 


LEN 从 实际 课题 出 发 ， 提 出 解决 问题 的 思路 ， 结 合 原理 或 基础 知识 ， 但 更 偏 
重 解决 问题 的 框架 和 流程 ， 选 用 简单 易学 但 功能 强大 的 R 语 言 ， 把 讲解 
延伸 到 具体 程序 代码 ， 让 读者 百分之百 经 历 整个 课题 研究 过 程 。 
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图 由 多 名 R 领 域 专家 ( 均 为 一 线 科 研 工作 者 ) 通过 互联 网 联手 写作 。 通 过 
前 期 网 上 调研 ， 了 解 并 在 书 中 突出 大 多 数 人 普遍 关心 而 又 难 寻 相 关 资 料 
的 问题 。 


m 所 见 即 所 得 ， 学 到 的 知识 可 以 通过 简单 编程 ( 仅 用 代码 拷贝 粘贴 ) 加 以 
实现 ， 印 象 深 刻 ， 学 了 不 易 忘 。 提 出 三 板 驹 学 习 法 ， 让 无 基础 的 人 也 能 
编程 。 


B ”作者 通过 QQ 群 直接 面向 读者 答疑 ， 并 提供 大 量 参考 资料 和 习题 答案 。 使 
用 正版 书籍 的 读者 ( 实名 制 ) 均 可 入 群 享受 最 好 的 服务 。 


E 有 既 不 罗列 基础 知识 凑 字 数 ， 也 不 使 用 光盘 ， 减 轻 读者 负担 又 保护 环境 。 
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2013 年 最 “ 华 彩 ”的 事件 莫 过 于 6 月 的 “棱镜 门 ”。 据 称 ， 美 国政 府 窃 听 的 范围 可 以 
触及 每 一 个 机 构 和 家 庭 。 这 些 在 笔者 看 来 无 非 是 媒体 的 炒作 ， 只 能 作为 茶余饭后 的 谈资 而 
已 。 而 从 数据 处 理 角度 来 看 ， 即 使 美国 政府 有 钱 有 技术 ， 能 够 收集 和 存储 人 类 社会 所 有 的 
通信 信息 ， 那 么 它 也 绝 无 能 力 处 理 这 些 信 息 ， 哪 怕 只 有 1%， 更 别提 形成 有 价值 的 情报 。 理 
由 很 简单 ， 因 为 我 们 进入 了 “大 数据 ”时 代 。 和 暂且 不 说 窃听 得 到 的 信息 ， 就 算 现 有 公开 数 
据 库 中 的 数据 又 有 多 少 得 到 了 有 效 利 用 。 生 物 信息 就 是 名 副 其 实 的 “大 数据 ”领域 ， 特 别 
是 当前 ， 下 一 代 测 序 主 导 的 基因 组 学 每 天 带 来 数 以 “T” 计 的 海量 数据 ， 远 远 超出 了 现 有 的 
数据 处 理 能 力 。 为 此 ,研究 人 员 开 发 了 一 些 计算 机 语言 或 工具 (如 基于 有 语言 的 Bioconductor 
项 目 ) ， 可 以 高 效 地 处 理 这 些 数据 。 因 此 ， 如 何 提供 有 效 的 培训 ， 出 版 好 的 教材 ， 让 数据 
分 析 人 员 快 速 掌握 这 些 语 言 和 工具 ， 已 成 为 “大 数据 ”时 代 一 个 非常 重要 的 课题 。 

本 书 的 几 位 作者 在 考察 了 国内 外 同类 书籍 后 发 现 ， 市 场 上 大 部 分 此 类 教材 或 者 参考 书 
容易 走向 两 个 极端 ， 一 是 过 分 偏重 理论 ， 讲 了 很 多 非常 基本 的 东西 ， 但 是 没有 联系 到 当前 
的 实际 应 用 ， 从 理论 到 算法 ， 到 程序 ， 乃 至 应 用 ， 这 些 连接 部 都 是 一 大 片 空白 ， 留 给 学 生 
自己 去 摸索 ， 会 让 他 们 难以 理解 ， 进 而 无 法 深刻 掌握 所 学 知识 ; 二 是 闭门造车 式 地 应 用 ， 
有 些 所 谓 “ 应 用 ”或 者 “实战 ”类 书籍 ， 造 出 一 些 根 本 不 存在 的 “应 用 ”举例 ， 既 不 讲 明 
这 么 做 的 目的 ， 也 没有 实际 项 目的 背景 知识 ， 让 读者 越 学 越 是 一 头 雾 水 ， 学 到 的 东西 越 多 ， 
越 不 知道 干什么 用 、 该 怎么 用 。 

在 生物 信息 数据 分 析 领 域 ， 如 果 能 够 编写 这 样 一 种 书 ， 从 实际 课题 (数据 和 结果 都 已 
经 公开 发 表 ) 出 发 ， 提 出 解决 这 个 问题 的 思路 ， 结 合用 到 的 原理 或 基础 知识 ， 但 更 偏重 整 
个 解决 问题 的 框架 和 流程 ， 选 用 一 种 简单 易学 但 功能 强大 的 语言 ， 把 讲解 延伸 到 具体 程序 
代码 ， 让 读者 百分之百 经 历 整 个 课题 研究 过 程 ， 学 会 分 析 并 解决 问题 。 那 么 可 以 肯定 地 说 ， 
这 个 学 习 的 印象 是 深刻 的 ， 并 真正 能 把 所 学 知识 转化 为 自己 的 技能 。 这 样 的 学 习 过 程 更 加 
“实例 化 ”， 更 符合 学 习 者 的 习惯 ， 而 不 是 编 书 者 的 习惯 。 多 年 的 实际 工作 经 验 告诉 我 们 ， 
与 计算 机 语言 有 关 的 学 习 ， 人 必须 结合 实际 项 目 ， 动 手 与 动脑 同等 重要 ， 而 结合 SCI 文章 中 
的 具体 研究 是 本 书 的 第 一 个 特点 。 

本 书 的 几 位 作者 根据 数据 分 析 (特别 是 生物 信息 方面 ) 领域 多 年 的 工作 经 验 ， 细 心 整 
理 了 部 分 工作 内 容 和 程序 代码 ， 将 R 语 言 和 Bioconductor 尽 可 能 详尽 但 又 不 泛泛 地 介绍 给 
读者 。 由 于 本 书 的 编写 思路 和 风格 是 全 新 的 ， 也 是 一 种 尝试 ， 再 加 上 作者 水 平 有 限 ， 时 间 
紧迫 (国内 读者 催 书 ), 书 内 错误 在 所 难免 。 不 过 , 我 们 的 编写 思路 是 典型 的 “Made in China? 
原则 ， 有 个 质量 差 的 能 满足 需要 总 比 没有 好 。 只 要 能 够 有 益 读者 ， 挨 吧 也 在 所 不 惜 。 本 书 
可 作为 高 年 级 本 科 生 和 研一 学 生 的 生物 信息 教材 配套 读物 ， 亦 可 作为 计算 机 和 数据 分 析 领 
域 的 参考 书 。 

本 书 的 第 二 个 特点 就 是 “所 见 即 所 得 ”， 本 书 涉及 的 全 部 源 代码 都 可 以 通过 “拷贝 ” 
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和 “粘贴 ”来 运行 ， 并 得 到 书 中 同样 的 结果 ， 使 程序 处 理 的 每 一 个 步骤 都 在 读者 的 掌控 之 
中 。 
本 书 的 第 三 个 特点 就 是 所 有 作者 都 是 通过 互联 网 认识 (此 前 互 不 认识 ) ， 并 一 起 合作 
进行 创作 的 。 和 希望 能 够 由 此 启发 国内 其 他 领域 的 专家 也 能 充分 利用 网 络 的 力量 ， 集 中 优势 ， 
编写 一 些 更 好 的 教材 。 下面 是 主要 作者 简介 。 

高 山 ， 男 ，1977 年 出 生 ，1995 年 考 入 国防 科技 大 学 电子 工程 学 院 ， 后 转 入 生物 信息 领 
域 ，2010 年 毕业 于 南开 大 学 生命 科学 学 院 ， 取 得 生物 信息 学 博士 学 位 。 留 美 期 间 主要 科研 
工作 在 美国 堪萨斯 大 学 结构 生物 学 中 心 和 康 奈 尔 大 学 BTI 植物 研究 所 (Boyce Thompson 
Institute for Plant Research) 完成 。2013 年 通过 天 津 市 第 八 批 “ 千 人 计划 ” (青年 项 
目 ) 进入 天 津 大 学 工作 。 

欧 剑 虹 ， 男 ，1979 年 出 生 ，1997 年 考 入 武汉 大 学 学 习 微 生物 专业 ， 后 进入 日 本 大 阪 大 
学 ，2009 年 毕业 于 大 阪 大 学 ， 取 得 信息 科学 与 技术 博士 学 位 。2011 年 进入 麻 省 州立 大 学 医 
学 院 从 事 生物 信息 研究 工作 。 

HEU 3. 1977 年 出 生 ， 职 业 数据 分 析 师 ， “数据 科学 与 R 语言 ”博客 博 主 ， 现 供职 
于 SupStat 统计 咨询 公司 ， 专 注 于 了 语言 与 大 数据 挖 据 方面 的 研究 。 

施 劲 松 ， 男 ，1982 年 出 生 ，2000 年 考 入 南京 大 学 生命 科学 学 院 ， 后 考 入 第 二 军医 大 学 ， 
取得 生理 学 博士 学 位 。2012 年 进入 南京 军区 南京 总 医院 肾脏 病 研究 所 ， 主 要 研究 方向 是 结 
合 临 床 的 组 学 数据 分 析 。 

杭 兴 宜 ， 男 ，1981 年 出 生 ，2003 年 于 解放 军 第 一 军医 大 学 生物 医学 工程 系 取得 学 士 学 
位 ，2009 年 于 解放 军 军 事 医学 科学 院 取得 生物 信息 学 博士 学 位 ，2013 年 于 解放 军 总 医院 临 
床 医 学 流动 站 博士 后 出 站 。 主 要 研究 方向 为 高 通 量 组 学 数据 整合 和 数据 挖 据 、 转 化 医学 数 
据 资 源 建设 等 。 

胡 朝 阳 ， 男 ，1983 年 出 生 ，2007 年 于 华中 科技 大 学 同济 医学 院 取 得 学 士 学 位 ，2012 年 
于 复旦 大 学 取得 博士 学 位 。 现 供职 于 杭州 市 肿瘤 医院 肿瘤 研究 所 ， 主 要 从 事 整 合 多 组 学 的 
高 通 量 药物 筛选 研究 。 

宫 秀 军 ， 男 ，1972 年 出 生 ，2002 年 于 中 国 科学 院 计算 技术 研究 所 取得 计算 机 软件 与 理 
论 方向 工学 博士 学 位 。2002 一 2003 年 分 别 在 新 加 坡 国 立 大 学 和 新 加 坡 Institute for 
Inforcomm Research (I2R) 做 博士 后 和 访问 学 者 。2003 一 2006 年 就 职 于 日 本 奈良 先端 科学 
技术 大 学 院 大 学 。2006 年 5 月 回国 ， 进 入 天 津 大 学 ， 现 为 计算 机 科学 与 技术 学 院 副教授 。 
研究 方向 主要 包括 数据 挖 据 、 复 杂 信 息 系统 集成 和 生物 信息 学 。 

吕 红 ， 女 ，1978 年 出 生 ，1998 年 考 入 哈尔滨 工业 大 学 航天 学 院 ， 取 得 工学 硕士 学 位 。 
2006 年 进入 天 津 职业 技术 师范 大 学 电子 工程 学 院 工作 ， 主 要 研究 方向 为 通信 信号 处 理 、 通 
信 网 和 移动 通信 技术 。 

本 书 的 其 他 作者 包括 青岛 市 市 立 医院 的 钊 守 凤 (1972 年 出 生 ， 女 ) 、 中 科 院 病毒 所 的 
刘海 舟 (1976 年 出 生 ， 男 ) 、 昆 明理 工大 学 的 焦 建 宇 (1991 年 出 生 ， 男 ) 、 华 南 师范 大 学 
的 游 宇 星 (1988 年 出 生 ， 男 ) 和 美国 饥 斯 西 储 大 学 医学 院 的 管 栋 印 (1983 年 出 生 ， 男 ) 。 
另外 ， 参 与 校对 工作 的 人 员 有 沈阳 农业 大 学 的 齐 明芳 副教授 、 广 东 省 农业 科学 研究 院 的 贝 
锦 龙 助理 研究 员 、 山 东 师 范 大 学 的 公 茂 舌 、 河 南 农 业 大 学 的 杨 海 玉 、 中 国 农 业 大 学 的 张 媛 
媛 、 华 中 农业 大 学 的 易 坚 、 重 庆 大 学 的 李 勃 、 浙 江 大 学 的 吴 三 玲 、 中 科 院 病毒 所 的 叶 彦 波 、 
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美国 伊利 诺 伊 大 学 香槟 分 校 的 张 洋 和 美国 得 州 学院 的 董 川 。 东 南大 学 的 谢 建 明 副 教授 、 暨 
南大 学 的 许 忠 能 副教授 和 中 国 农业 科学 院 甘 薯 所 的 曹 清河 副 研 究 员 也 对 本 书 提出 了 宝贵 意 
见 。 本 书 的 封面 设计 原始 创意 来 自 北京 市 理化 分 析 测试 中 心 的 苏 晓 星 和 延边 大 学 的 李 广 。 

首先 ， 感 谢 BTI 植物 研究 所 的 费 章 君 副教授 在 我 博士 后 期 间 的 指导 以 及 费 章 君 实验 室 
的 毛 林 勇 、 郑 轶 、 包 入 和 和 孙 宏 贺 等 各 位 同事 的 帮助 。 费 老师 是 我 在 第 二 代 测 序 方面 研究 的 
领路 人 人， 不仅 在 专业 上 给 我 多 方面 指导 ， 而 且 在 学 术 研 究 等 其 他 方面 也 使 我 得 到 很 多 训练 。 
本 书 在 第 二 代 测 序 方面 的 一 些 思路 和 经 验 有 些 来 自 于 费 老师 实验 室 各 成 员 的 讨论 。 

其 次 ， 感 谢 我 的 博士 生 导 师 南 开 大 学 生命 科学 学 院 的 张涛 和 数学 学 院 的 阮 吉 寿 教 授 对 
我 的 长 期 支持 ， 并 作为 我 的 坚强 后 盾 ; 感谢 国家 人 口 与 健康 科学 数据 共享 平台 的 支持 ; 特 
别 感谢 天 津 大 学 计算 机 科学 与 技术 学 院 前 院 长 孙 济 洲 教授 和 院 长 党 建 武 教授 对 我 回国 工作 
的 热情 帮助 ， 以 及 天 津 市 委 组 织 部 和 天 津 大 学 在 人 才 引 进 方面 的 积极 服务 。 最 后 ， 感 谢 美 
国 堪萨斯 大 学 徐 亮 副教授 提供 了 第 五 章 5.7 部 分 的 芯片 数据 ， 美 国 加 利 福 尼 亚 大 学 助理 教 
授 Thomas Girke 提供 了 第 二 章 内 容 的 部 分 源 代码 。 本 书 的 资助 来 自 天 津 市 认 知 计算 与 应 用 
重点 实验 室 的 国家 自然 科学 基金 重点 项 目 “ 语 音 产 生 过 程 的 神经 生理 建 模 与 控制 ? 
(F030404) 。 本 书 在 编写 过 程 中 ， 还 得 到 了 我 国 肾脏 病 专家 、 中 国 工 程 院 院 士 刘 志 红 教授 
的 关怀 和 帮助 ， 在 此 也 一 并 表示 感谢 。 

本 书 的 第 四 个 特点 就 是 写 书 过 程 中 不 断 通 过 QQ 群 征询 本 领域 研究 人 员 的 意见 ， 动 态 交 
流 ， 其 间 对 内 容 进 行 了 多 次 修改 ， 而 且 本 书 的 售后 服务 和 答疑 也 将 通过 QQ 群 160685613 进 
行 。 


本 书 全 部 作者 ( 由 高 山 执笔 ) 
2013 年 12 月 15 日 


写 给 生物 信息 学 的 读者 


本 书 既 是 一 本 R 语言 的 书 ， 又 是 一 本 生物 信息 学 的 书 ， 因 此 考虑 到 大 量 读者 可 能 来 自 
生物 信息 学 或 相关 领域 ， 本 书 作 者 写 下 如 下 寄语 ， 以 求 共勉 。 在 人 类 基因 组 催 发 的 第 一 轮 
生物 信息 热潮 衰退 后 ， 生 物 信 息 一 度 陷 入 一 个 很 大 的 低潮 ， 在 很 多 科学 “大 牛 ” 断 言 生 物 
信息 学 科 是 一 个 “Junk” 后 ， 很 多 激动 人 心 的 事件 接连 发 生 了 。 

以 下 一 代 高 通 量 第 二 代 测 序 领衔 的 另 一 轮 生 物 信息 热 潮 悄 然而 至 ， 对 生物 领域 的 产 学 
研 都 产生 了 深远 影响 。 基 因 组 的 快速 廉价 测定 ， 使 生物 信息 学 从 实验 室 更 快走 向 应 用 。 在 
农业 领域 ， 大 量 非 模式 植物 的 基因 组 得 到 了 快速 准确 的 测定 ， 更 多 的 抗 病 高 产 基因 被 发 据 ; 
在 医学 领域 ， 冶 症 和 其 他 疾病 的 基因 型 检测 更 加 可 靠 。 无 论 是 基于 全 基因 组 测序 的 无 创 产 
检 ， 还 是 癌症 靶 向 药物 服用 前 的 外 显 子 组 第 查 ， 都 显示 了 生物 信息 学 已 进入 百姓 生活 。 

2013 年 诺 贝 尔 化 学 奖 在 瑞典 揭晓 : MartinKarplus、Michael Levitt 和 Arieh Warshel 
三 位 科学 家 因 “为 复杂 化 学 系统 创立 了 多 尺度 模型 ”而 获奖 。 有 兴趣 的 读者 可 以 去 三 位 科 
学 家 的 网 站 看 一 下 他 们 的 研究 方向 ， 你 就 会 发 现 ， 生 物 的 东西 比 化 学 多 ， 他 们 研究 的 对 象 
全 部 都 是 生物 大 分 子 ， 特 别 是 蛋白 质 ， 而 他 们 的 研究 手段 就 是 计算 。 可 以 毫 不 夸张 地 预测 ， 
未 来 的 化 学 和 生理 学 奖 ， 很 难 不 与 生物 和 信息 发 生 关 系 。 而 生物 和 信息 科学 这 两 个 领域 恰 
恰 就 是 当今 时 代 的 “ 显 学 ”， 二 者 的 结合 成 为 了 非常 重要 的 研究 方向 。 

如 果 把 这 个 热潮 比 作 股市 ， 这 还 只 是 一 个 初生 浪 ， 后 面 会 一 浪 接 一 浪 。 笔 者 在 写作 过 
程 中 ， 技 术 领 域 又 发 生 了 翻天 履 地 的 变化 。 学 习 永 远 赶不上 技术 发 展 ， 这 是 一 个 新 型 学 科 
发 展 壮大 的 最 重要 标志 。 第 二 代 测 序 方 兴 未 艾 ， 第 三 代 测 序 又 发 生 了 突破 性 进展 .以 PacBio 
公司 为 代表 的 第 三 代 测 序 技术 可 以 在 更 短 的 时 间 内 同时 记录 几 十 万 个 DNA 或 RNA 单 分 子 合 
成 的 信息 ， 忠 实地 记录 生物 体内 的 这 些 生命 过 程 ， 使 人 类 解析 生命 现象 的 能 力 发 生 革 命 性 
进展 。 第 二 代 测 序 刚 革 了 第 一 代 测 序 的 命 ， 自 己 的 命 又 要 被 第 三 代 测 序 所 革 。 测 序 技术 只 
是 一 个 开端 ， 诱 导 多 能 干细胞 技术 、 基 因 组 编辑 和 靶 向 蛋白 质 组 等 新 兴 生 物 领 域 ， 都 在 等 
待 生 物 信 息 学 者 的 进入 。 

生物 信息 领域 的 同行 ， 特 别 是 初学 者 最 关注 的 是 ， 生 物 信息 应 该 学 些 什么 计算 机 基础 。 
除了 数据 库 、 操 作 系统 ( 特 指 linux) 的 使 用 ， 笔 者 认为 还 应 该 掌握 一 个 简单 编程 语言 ( 例 
如 Perl) 和 一 个 数据 处 理 语言 (例如 R) ， 后 者 可 以 更 简单 地 处 理 统计 绘图 等 非常 复杂 的 
编程 应 用 ， 在 生物 信息 学 领域 万 为 重要 。 

本 书 由 于 是 网 络 组 队 ， 管 理 松散 ， 技 术 发 展 之 快 让 我 们 难以 下 笔 。 再 三 权衡 ， 考 虑 到 
芯片 分 析 是 Biocondonctor 的 起 源 ， 因 此 还 是 把 它 作为 重点 予以 介绍 ， 对 于 当前 真正 的 热 
点 第 二 代 测 序 只 介绍 了 其 中 的 RNA-seq。 由 于 写 书 时 间 紧 , 最 有 前 途 的 第 三 代 测 序 本 书 没有 
详细 讨论 ， 这 里 提醒 各 位 读者 一 定 要 密切 关注 PacBio 公司 的 SMRT 技术 ， 笔 者 正在 进一步 
整理 相关 资料 ， 希 望 在 以 后 版 本 中 推出 。 


编者 
2013 年 12 月 
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第 一 章 R 基础 知识 


在 面 对 各 种 复杂 的 数据 问题 时 ， 如 果 能 用 儿 行 代码 就 轻松 实现 使 用 者 的 想法 而 无 须 了 
解 其 底层 的 实现 细节 ， 那 么 使 用 者 就 可 以 从 繁忙 的 编程 工作 中 解脱 出 来 而 投入 更 多 的 精力 
到 应 用 领域 。R 就 是 基于 此 目的 设计 的 程序 语言 ， 并 已 在 业界 盛行 。 越 来 越 多 的 公司 (包括 
谷歌 、 辉 瑞 和 美国 银行 等 业界 巨头 ) 和 学 术 界 的 数据 分 析 师 开始 使 用 R 语言 ， 欧 美 各 大 名 
校 也 都 将 R 语言 列 为 数据 分 析 课 程 的 必修 语言 。 借 用 谷歌 首席 经 济 学 家 Hal Varian 的 一 名 
话 来 评价 R:“R 语言 的 美 在 于 你 稍 做 修改 ， 就 可 以 用 它 来 达到 不 同 的 使 用 目的 ， 它 预 置 了 
各 种 可 用 的 扩展 包 ， 使 你 站 在 巨人 的 肩膀 上 工作 。”™ 

R 作为 统计 分 析 、 绘 图 的 语言 和 操作 环境 站， 它 有 两 层 含义 : 一 方面 ，R 是 一 套 计算 机 
语言 ， 它 定义 了 自己 的 语法 ， 可 用 来 实现 各 种 自 定义 的 算法 ， 因 此 称 为 R 语言 ， 同 时 ，R 
也 是 一 个 软件 ， 是 一 个 基于 操作 系统 的 集成 开发 和 操作 环境 ， 包 括 了 用 户 交互 界面 、 编 译 
系统 、 各 种 工具 和 扩展 包 。 为 了 避免 初学 者 混淆 ， 本 文中 用 R 语言 、R 软件 和 R 分 别 表示 
第 一 、 二 层 含义 以 及 两 者 的 统称 。 本 章 的 1.1 将 先 简单 介绍 R 的 背景 ; 之 后 在 12 介绍 RR 软 
件 的 下 载 和 安装 ，1.3 通过 一 个 实例 使 读者 可 以 快速 入 门 ; 1.4 总 结 本 章 用 到 的 语法 知识 。 


1.1 什么 是 R 


1.1.1 R 语言 的 起 源 


R 语言 脱胎 于 20 世纪 70 年 代 诞生 的 S 语言 ， 可 以 认为 是 后 者 的 一 种 方言 。1975 一 
1976 年, AT&T 贝尔 实验 室 统计 研究 部 在 使 用 Fortran 语言 做 统计 分 析 时 发 现 , 如 果 用 Fortran 
编程 ， 花 在 编程 上 的 时 间 同 取得 的 分 析 效 果 相 比 得 不 偿 失 ， 于 是 就 创建 了 更 为 高 级 的 S 语 
言 外 。S 语言 的 理念 ， 用 它 的 发 明 者 John Chambers 《〈 后 来 也 成 了 R 语言 的 核心 团队 成 员 ) 
的 话说 就 是 “快速 且 忠 实地 把 想法 转换 为 软件 ” 句 。 后 来 ，S 语言 表现 极为 优秀 ， 因 此 在 
1998 年 被 美国 计算 机 协会 〈Association of Computing Machinery, ACM) 授予 了 “软件 系统 
X (Software System Award)”， 这 是 迄今 为 止 众 多 统计 软件 中 唯一 被 ACM 授奖 的 统计 系统 。 
1993 年 ，S 语言 的 许可 证 被 MathSoft 公司 (2001 4E MathSoft 总 部 迁 到 西雅图 ， 并 改名 为 
Insightful 公司 。2008 年 被 TIBCO 公司 收购 ) 买 断 ， 并 在 此 基础 上 开发 出 S-PLUS. HF 
S-PLUS 继承 了 S 语言 的 优秀 血统 ， 因 此 被 世界 各 国 的 统计 学 家 广泛 采用 ， 成 为 世界 上 公认 
的 三 大 统计 软件 之 一 。R 与 S-PLUS 作为 S 语言 的 两 种 实现 ,几乎 继承 了 S 语言 全 部 的 语法 
与 数据 结构 ，R 同时 还 吸收 了 Scheme 的 语法 。S、S-PLUS 和 R 有 很 高 的 兼容 性 ， 很 多 代码 
不 需要 改变 即 可 到 另外 一 个 平台 直接 运行 ,参考 手册 资料 也 可 以 相互 借鉴 。 到 后 来 ，R 的 迅 
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猛 发 展 使 S 和 S-PLUS 的 用 户 逐 渐 都 转 到 了 RÉ. 

1993 ^E, 在 S 语言 的 源 代码 的 基础 上 , 新 西 兰 奥克兰 (Auckland) 大 学 统计 系 的 Robert 
Gentleman 和 Ross Ihaka 编写 了 一 套 能 执行 S 语言 的 软件 ,并 以 邮件 列表 的 形式 共享 可 执行 
程序 ， 于 是 R 语言 便 问世 了 〈“R” 命 名 来 自 于 两 位 开发 者 名 字 的 第 一 个 字母 ) 中 。1995 年 
6 H, 在 苏黎世 联邦 理工 学 院 (德语 : Eidgenössische Technische Hochschule Zürich, 简称 ETH 
Zürich) Martin Mächler 的 建议 下 , Robert 和 Ross 根据 自由 软件 基金 会 的 公共 授权 协议 (Free 
software foundation's GNU general license) 公开 了 R 的 源 代码 ， 大 量 优秀 统计 学 家 加 入 到 R 
语言 开发 的 行列 ，R 语言 的 功能 逐渐 强大 (图 1-1)。1997 年 ， 为 了 更 好 地 组 织 开发 和 维护 
R i& i, Robert, Ross 和 Martin 又 成 立 了 一 个 包括 11 个 人 的 RR 语言 核心 团队 (core group? , 
这 就 是 当前 R 核心 开发 小 组 (R development core team) 的 前 身 。 到 了 2000 F, 互联 网、 生 
物 信息 海量 数据 挖掘 的 强大 需求 使 传统 的 统计 和 数据 分 析 进 入 了 大 数据 (Big data) 时代。 
R 语言 的 市 场 份 额 爆发 式 增长 ， 根 据 最 权威 的 计算 机 图 书 出 版 公司 欧 菜 礼 COReillyo (jj 
查分 析 显 示 ， 仅 从 2010 年 到 2011 年 ，R 语言 书籍 的 市 场 份额 就 扩大 了 127%， 图 1-1 显示 
了 各 主要 计算 机 语言 2011 年 的 市 场 变 动 。 
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图 1-1 R 语 言 书籍 市 场 的 爆发 《2011 年 ) 
1.1.2 R 语言 的 将 点 


作为 一 套 完整 的 数据 处 理 、 统 计 和 绘图 的 系统 和 操作 环境 ，R ERRA FEAS, 
(1) 功能 强大 且 扩 展 性 强 
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R 语言 的 库 函 数 以 扩展 包 的 形式 存在 , 方便 管理 和 扩展 。 由 于 代码 的 开源 性 ,使 全 世界 
优秀 的 程序 员 、 统 计 学 家 和 生物 信息 学 家 加 入 到 R 社区 ， 为 其 编写 了 大 量 的 R 包 来 扩展 其 
功能 。 这 些 R 包涵 盖 了 各 行 各 业 数 据 分 析 的 前 党 方法 : 从 统计 计算 到 机 器 学 习 、 从 金融 分 
析 到 生物 信息 、 从 社会 网 络 分 析 到 自然 语言 处 理 、 从 各 种 数据 库 各 种 语言 接口 到 高 性 能 计 
算 模型 ， 几 乎 无 所 不 包 。 这 也 是 为 什么 R 正在 获得 越 来 越 多 业界 人 士 喜爱 的 一 个 重要 原因 。 
本 章 的 1.1.3 将 通过 几 个 例子 说 明 R 语言 的 强大 功能 。 


(2) 编程 简单 且 交 互 性 强 


作为 一 种 解释 性 的 高 级 语言 , R 程序 的 编写 非常 简洁 , 仅仅 需要 了 解 一 些 函 数 的 参数 和 
用 法 ， 不 需要 了 解 更 多 程序 实现 的 细节 ， 而 且 R 能 够 实时 显示 输入 的 程序 或 命令 的 结果 ， 
让 用 户 所 见 即 所 得 。 这 个 特点 非常 有 助 于 快速 学 习 R，( 见 本 章 1.3)。 


(3) 与 其 他 编程 语言 或 软件 配合 方便 


R 可 通过 相应 接口 连接 各 类 数据 库 获取 数据 ,如 Oracle, DB2 EÈ MySQL; 也 能 同 Python、 
Java、C 或 C++ 等 语言 进行 相互 调用 ; R 还 提供 了 API 接口 , 很 多 统计 软件 可 调用 R 函数 ， 
如 SAS、SPSS 和 Statistica 等 。 此 外 ，R 的 分 析 结 果 也 很 容易 导出 以 供 其 他 软件 使 用 。R 的 
混合 编程 以 及 与 各 种 软件 的 接口 和 配合 可 以 使 程序 开发 者 大 大 提高 工作 效率 ， 这 方面 的 例 
子 可 以 参看 第 三 章 。 


(4) 跨 平台 

R 可 在 多 种 操作 系统 下 运行 ， 如 Windows、MacOS、 各 种 版 本 的 Linux 和 UNIX 等 ,用 
户 甚 至 可 以 在 浏览 器 中 运行 RV。 

(5) 开源 和 免费 

源 代码 的 开放 便于 集中 各 学 科 的 人 才 ， 使 R 可 以 快速 包括 各 种 新 算法 和 新 功能 ， 另 外 


也 方便 了 初学 者 的 深入 学 习 。 当 前 ， 盗 版 统计 软件 (如 SAS、SPSS 和 MATLAB) 的 使 用 严 
重 影响 了 R 在 中 国 的 普及 。 但 是 随 着 知识 产权 法 律 和 意识 的 加 强 , R 免费 的 优势 迟早 会 爆发 。 


(6) 强大 的 社区 支持 


R 平均 每 6 个 月 发 布 一 个 新 版 本 ， 并 有 完备 的 帮助 系统 和 大 量 文档 以 帮助 用 户 学 习 使 
用 。R 有 各 类 讨论 群 和 论坛 ， 方便 R 包 开 发 者 解答 用 户 问 题 。 这 部 分 内 容 可 以 参看 附录 A。 


CD 方便 撰写 分 析 报 告 


用 户 可 以 在 一 个 文档 〈 分 析 报 告 ) 中 混 排 文 本 、 图 形 、R 程序 源 代码 等 所 有 元 素 , 分析 
结果 会 被 自动 插入 该 文档， 并 以 各 种 格式 (HTML. XML. Word EÈ PDF) 输出 ， 从 而 方便 
修改 和 分 享 研 究 过 程 。 这 部 分 内 容 会 在 1.2.3 详细 介绍 。 

当然 ，R 也 存在 一 些 不 足 ， 主 要 有 五 点 : 第 一 ，R 严重 消耗 内 存 ， 它 不 仅 习 惯 一 次 性 把 
全 部 数据 读 入 内 存 进行 处 理 , 还 偏好 申请 连续 的 内 存 块 , 这 与 Linux 占用 一 定 内 存 来 作为 组 
冲 的 习惯 发 生 冲 突 ， 第 二 ，R 运行 效率 低 ， 较 之 编译 型 语言 (如 C) 有 很 大 差距 ; 第 三 ，R 





M4 R 语 言 与 Bioconductor 生物 信息 学 应 用 


虽然 提供 了 一 些 并 行 计 算 的 扩展 包 ， 但 是 如 何方 便 地 支持 并 行 计 算 依 然 还 是 一 个 亚 待 解决 
的 问题 ， 第 四 ， 由 于 R 不 断 吸收 新 算法 以 及 不 断 更 新 扩展 包 ， 导 致 了 帮助 文档 过 于 简单 ， 
版 本 兼容 性 也 存在 一 定 问 题 ; 第 五 ， 源 代码 缺乏 注释 ， 缺 乏 高 级 版 本 管理 工具 ， 用 户 不 易 
阅读 源 代码 。 在 上 述 不 足 中 ， 前 三 点 都 是 技术 原因 ， 相 信 会 随 着 计算 机 技术 的 发 展 的 不 断 
改善 ， 但 是 后 面 的 两 点 很 大 程度 涉及 了 用 户 的 教育 培训 ， 由 于 R 的 学 习 不 仅 要 具备 一 定 的 
计算 机 和 统计 方面 的 知识 ， 而 且 还 需要 专业 领域 的 一 些 背 景 知识 ， 当 前 R 相关 的 各 类 书籍 
和 手册 中 很 难 找到 一 个 合适 的 出 发 点 或 者 框架 来 满足 不 同 专业 背景 的 R 用 户 的 需求 。 

特别 注意 的 是 ，R 包 的 一 个 最 重要 的 缺陷 就 是 版 本 升级 过 快 ， 一 些 高 层 扩展 R east 
容 性 差 ， 某 个 版 本 写 好 的 代码 到 了 另 一 个 版 本 上 可 能 无 法 运行 ， 因 此 R 程序 在 交流 、 发 布 
的 过 程 中 一 定 要 在 最 后 附 上 版 本 信息 (请 参见 例 4-12)。 本 书 中 的 大 部 分 R 代码 都 在 R-2.15.1 
上 调试 ， 为 了 节省 空间 ， 省 略 了 版 本 信息 输出 ;部 分 代码 在 更 早 一 些 版 本 上 完成 ， 未 经 
R-2.15.1 上 调试 ， 因 此 在 最 后 附 上 版 本 信息 。 


1.1.3 RR 语言 的 主要 用 途 


许多 知名 大 公司 都 在 使 用 R 来 分 析 数 据 。 例 如 谷歌 公司 通常 使 用 及 来 进行 数据 探索 和 
原型 建 模 ， 然 后 再 使 用 C 或 Python 来 将 模型 运用 到 大 规模 数据 中 。 而 Facebook 则 使 用 R 
中 的 决策 树 扩 展 包 来 预测 用 户 的 网 络 行为 ， 并 在 此 基础 上 改善 用 户 体 验 。 从 行业 分 布 来 看 ， 
R 几乎 无 所 不 在 ， 只 要 有 统计 与 绘图 的 地 方 就 有 R 的 用 武之 地 。 当 前 比较 集中 的 行业 包括 
互联 网 〈 包 括 地 理 信 息 )、 金 融和 生命 科学 等 。 以 下 通过 几 个 实例 来 简要 说 明 。 


(1) 统计 与 绘图 


R 诞生 的 目的 就 是 为 了 进行 统计 计算 , 最 初 它 被 定义 为 一 个 统计 计算 与 绘图 的 工具 。 在 
R 语言 中 可 以 方便 地 计算 各 类 统计 分 布 、 参 数 估计 和 假设 检验 等 ，R 也 能 进行 数值 计算 ， 例 
如 方程 求 根 、 数值 积分 和 最 优化 问题 ; R 还 可 以 处 理 微分 方程 和 系统 动力 学 问题 以 及 进行 系 
统 模拟 。 对 于 计算 机 领域 的 研究 热点 一 一 机 器 学 习 和 数据 挖掘 ,，R 通过 扩展 包 的 形式 儿 乎 涵 
盖 了 所 有 的 已 知 算法 〈 如 神经 网 络 、 决 策 树 、 随 机 森林 、 支 持 向 量 机 及 贝 叶 斯 方法 等 )， 并 
不 断 收集 各 类 前 沿 算法 。R 的 强大 绘图 功能 无 与 伦比 ， 不 仅 支 持 各 类 基本 图 形 《〈 如 直方 图 、 
箱 线 图 和 散 点 图 等 )， 还 能 让 用 户 随 心 所 欲 地 通过 三 维 图 形 和 动态 图 形 展 现 数据 。 图 1-2 即 
是 用 R 语言 进行 地 震 数据 可 视 化 〈 例 1-1) 的 结果 。 该 图 用 R 抓 取 了 最 近 一 周 在 中 国 发 生 
的 地 震 数据 ， 并 将 其 绘制 在 谷歌 中 国 地 图 上 ， 其 中 的 深 色 散 点 代表 地 震 发 生地 点 ， 从 中 可 
以 观察 到 川 藏 交界 一 带 是 地 震 高 发 区 域 。 


(2) 互联 网 数据 挖掘 


近 几 年 社交 网 络 成 为 互联 网 行业 的 中 心 话题 。 无 论 是 旗舰 级 别 的 Facebook， 还 是 如 
雨 后 春 敌 般 冒 出 来 的 各 种 团购 和 微 博 网 站 ， 都 或 多 或 少 地 体现 着 社会 网 络 服务 CSocial 
networking services, SNS) 的 概念 ， 这 为 社会 网 络 分 析 CSocial network analysis, SNA) '?! 
提供 了 珍贵 的 研究 数据 。 通 过 研究 网 络 关 系 ， 有 助 于 把 “微观 ”网 络 与 大 规模 的 社会 系 
统 的 “宏观 ”结构 结合 起 来 ， 这 使 在 以 往 只 能 依靠 有 限 的 调研 或 模拟 才能 进行 的 社会 网 
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络 分 析 ， 有 具备 了 大 规模 展开 和 实施 的 条 件 。 在 R 语言 中 ， 有 很 多 扩展 包 提 供 了 SNA 方 
法 和 工具 。 图 1-3 就 是 利用 “igraph” 扩 展 包 5 绘 制 的 一 个 网 络 图 〈 例 1-2)， 该 图 表示 
了 一 个 根据 Barabasi-Albert 模型 算法 随机 生成 的 无 尺度 网 络 。 如 果 将 它 看 作 是 一 个 小 型 
社交 网 络 ， 那 么 网 络 中 的 点 就 是 社交 图 中 的 个 体 ， 而 点 之 间 的 连 线 表示 了 个 体 之 间 的 社 
交 联系 。 





p / UN “ee 。 
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图 1-3 ”基于 “igraph” 扩 展 包 的 社交 网 络 图 
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(3) 金融 分 析 


在 金融 定量 分 析 领 域 , R 语言 也 表现 出 极 强 的 能 力 ， 它 提供 了 大 量 的 金融 分 析 函 数 ， 可 
用 于 金融 分 析 的 各 个 方面 中。 其 中 包括 了 财务 数据 的 获取 和 整理 ,例如 从 Yahoo 网 站 获取 上 
市 公司 的 财务 报表 和 历史 报价 ; 计算 各 类 金融 产品 定价 ， 如 期 权 、 债 券 和 各 类 资产 组 合 ; 
对 金融 时 间 序 列 数据 建 模 , 如 ARIMA 模型 和 GARCH 模型 ; 以 及 风险 管理 方面 的 定量 风险 
模型 和 各 类 精算 模型 等 。 图 1-4 就 是 利用 R 语言 的 “quantmod” 包 来 获取 中 国 上 证 指数 数 
据 〈 例 1-3)， 然 后 绘制 的 K 线 图 和 MACD 指标 图 。 
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图 1-4 基于 quantmod 包 的 中 国 上 证 指数 K 线 与 MACD 指 标 图 
(4) 生命 科学 及 其 相关 领域 ' 


与 生命 科学 相关 的 领域 包括 生物 信息 学 (分 子 及 基因 组 水 平 ) [1、 医 学 图 像 处 理 09、 
进化 与 生态 学 51、 化 学 计量 学 以 及 药物 化 学 等 "9 。 互 联网 和 生物 信息 学 可 以 说 是 R 语言 的 
两 个 强大 的 助 推 剂 ， 它 们 带 来 的 海量 数据 分 析 和 可 视 化 的 需求 真正 刺激 了 R 的 迅猛 发 展 。 
各 种 组 学 ， 特 别 是 下 一 代 测 序 技术 的 高 速 发 展 ， 催 生 了 Bioconductor 生物 信息 软件 包 ， 开 
启 了 生物 信息 学 的 R 语言 时 代 02。 图 1-5 就 是 利用 R 语言 的 “ggplot2” 来 绘制 的 一 组 基因 
本 体 论 (Gene Ontology, GO) 术语 (term) 之 间 的 相互 关系 〈 例 1-4)。 图 1-5 中 各 个 术语 
的 相互 关系 一 目 了 然 ， 用 户 可 以 从 整体 上 把 握 各 个 术语 表示 的 生物 学 概念 之 间 的 关系 ， 并 
快速 定位 自己 感 兴趣 的 概念 及 关系 ， 为 下 一 步 的 研究 提供 思路 。 


1.1.4 R 语言 的 应 用 现状 和 发 展 趋势 
随 着 数据 的 爆炸 式 增长 ， 大 数据 分 析 需 求 也 水 涨 船 高 ， 各 种 新 老 软 件 或 工具 都 在 不 断 


提升 。 为 了 动态 跟踪 数据 挖掘 和 分 析 工 具 及 编程 语言 的 发 展 趋势 ， 著 名 的 数据 挖掘 与 分 析 
网 站 KDNuggets 〈http:/www.kdnuggets.com) 每 年 都 会 根据 用 户 的 投票 进行 一 次 年 度 调 查 ， 
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调查 的 问题 是 :“ 过 去 一 年 中 ,你 在 实际 项 目 中 使 用 的 数据 分 析 工 具 〔( 软 件 )” 在 2012 年 5 
月 做 的 第 13 次 调查 中 (图 1-6)，R 以 30.7% 的 得 票 率 荣 登 榜首 ， 超 过 Excel (29.8%) 和 
RapidMiner (26.7% )。 而 实际 上 后 两 种 工具 只 能 看 作 是 软件 ， 因 其 不 具备 低层 编程 
(Lower-level coding) 的 能 力 ， 因 此 还 要 进行 应 用 编程 语言 CLower-level languages) 方面 的 
比较 。 在 这 方面 ，R 击败 了 第 2 名 的 SQL 和 第 3 名 的 Java， 排 名 第 一 。 另 外 ， 值 得 注意 的 
是 ， 免 费 开源 软 件 的 用 户 〈30%) 超过 了 商业 软件 的 用 户 (28%)， 还 有 41% 的 用 户 同 时 使 
用 免费 开源 和 商业 软件 ， 大 数据 工具 的 用 户 从 2011 年 (3%) 到 2012 年 (15%) 增长 了 4 
省。 免费 开源 和 处 理 大 数据 正 是 R 的 强项 ， 从 这 个 角度 来 看 ，R 的 市 场 份额 还 会 增加 。 
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图 1-5 基于 ggplot 包 的 基因 本 体 论 术语 关系 图 ( 见 彩 图 ) 
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E users in 2011 
R (245) FEI 30 7 
FEEDING 23 396 
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Rapid- RapidMiner (213) ENTIEEEUUESENEED)G 76 
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图 1-6 关于 数据 工具 语言) 使 用 情况 的 调查 结果 (来 自 KDNuggets 网 站 ) 
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为 了 跟踪 业内 程序 开发 语言 的 流行 使 用 程度 ，TIOBE Chttp://www.tiobe.com) 每 月 推出 
一 个 排行 榜 ， 到 2012 年 9 月 ，R 语言 的 排名 升 至 24 位 ， 其 市 场 占 有 率 已 经 达到 了 0.44%, 
R 语言 也 被 列 为 凯 起 最 快 的 七 门 语言 之 一 。 不 少 开 厂商 已 经 着 手 设计 支持 及 语言 的 产品 ， 
例如 包括 Oracle, IBM, Teradata, Sybase 和 SAP 等 在 内 的 各 大 数据 库 厂商 已 有 了 相应 的 RR 
语言 企业 级 应 用 产品 。TIOBE 给 出 的 排行 是 不 分 领域 的 ， 虽 然 一 定 程度 上 反映 了 编程 语言 
的 发 展 趋势 ， 但 对 具体 工作 的 指导 意义 不 大 。 在 实际 工作 中 , .更 看 重 编程 语言 在 专业 领域 
的 排名 。 在 生物 信息 领域 ，Bioinfsurvey 网 站 Chttp://www. Bioinfsurvey.org) 对 各 种 主流 生 
物 信息 编程 语言 的 用 户 数量 给 出 了 排名 ，R 语言 稳 居 第 一 〈 图 1-7)。 因 此 ， 可 以 说 R 是 生 
物 信 息 专业 的 首选 编程 语言 。 
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图 1-7 ”主流 生物 信息 学 编程 语言 的 用 户 数量 排名 〈 来 自 Bioinfsurvey 网 站 ) 


从 各 方面 的 招聘 信息 来 看 ， 对 R 语言 的 人 才 需 求 也 日 渐 旺 盛 。 著 名 的 网 络 公 司 Twitter 
发 布 的 招聘 广告 对 数据 分 析 人 员 明 确 提 出 了 要 求 会 使 用 R 语言 。 就 连 美国 总 统 奥巴马 在 招 
募 竞 选 团 队 中 的 数据 分 析 师 时 (Obama Campaign Needs Digital Analysts)， 也 要 求 应 聘 者 具 
有 R 语言 的 技能 。 从 这 些 招聘 要 求 中 ， 可 以 看 到 业界 对 于 R 语言 的 认可 程度 。 时 任 辉 瑞 
(Pfizer) 公司 非 临 床 数据 部 CNonclinical Statistics? 副 主任 Max Kuhn 曾 说 过 这 样 一 句 话 : 
“RR 已 成 为 研究 生 毕 业 后 必修 的 第 二 语言 ”中 图 1-8 是 一 则 生物 信息 分 析 人 员 的 招聘 广告 ， 
他 提出 的 编程 方面 的 要 求 具有 普遍 的 意义 (图 1-8 中 黑色 框 内 )， 必 须 掌 握 R/Bioconductor 
语言 ， 同 时 还 要 掌握 Perl 或 Python 语言 中 的 一 种 。 

目前 R 在 中 国 的 普及 率 并 不 是 非常 高 ， 主 要 用 户 集中 在 高 校 及 科研 机 构 。 但 近年 来 随 
着 R 的 声名 静 起 ， 已 经 有 越 来 越 多 的 业界 人 士 选择 R 作为 自己 的 工作 平台 。 国 内 R 语言 推 
广 方面 的 一 个 重要 组 织 者 是 “统计 之 都 ”Capital of statistics; 简称 COS, 网 址 http://cos.name) 
网 站 ， 成 立 于 2006 年 5 月 。 在 “统计 之 都 ”的 积极 推动 下 ， 自 2008 年 起 ， 每 年 举行 一 次 
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“中 国 R 语言 会 议 ”， 截 止 到 本 文 撰写 ， 已 举办 了 6 届 。 会 议 主要 的 目的 是 介绍 各 行业 R 的 
应 用 情况 以 及 新 进展 。 从 前 6 届 的 中 国 R 语言 会 议 来 看 ，R 的 中 国 用 户 群 一 直 呈 现 较 大 的 
增长 趋势 ， 用 户 分 布 的 领域 也 越 来 越 丰富 。 可 以 毫 不 夸张 地 说 ， 随 着 数据 挖掘 和 数据 分 析 
的 黄金 时 代 到 来 ， 擅 长 数据 分 析 的 R 语言 的 前 景 也 是 一 片 光 明 。 


We are seeking a Statistical Bioinformatician to work as part of the Computational Biology Research Group (CBRG), based at the Weatherall Institute of 
Molecular Medicine (WIMM) in Oxford. UK. The CBRG collaborates with WIMM scientists to successfully integrate bioinformatics into their research 


Working as part of the CBRG team, the successful candidate will be the main point of contact for statistical and bioinformatics projects with a statistical 
component at the WIMM. The work will include application of existing tools and method development in the following areas but not limited to: next 
generation sequence analysis (RNA-Seq. ChlP-Seq. Variant analysis). biological modelling, experimental design and proteomics analysis 






You will have an M 
skills in statistics, 
UNIX/LINUX enviro - p anze : ? 
manage multiple simultaneous projects and achieve deadlines 


ET iR ar eraot Ead a i T aai analysis of high dimensional datasets 
programming Perl or Python and R/Bioconductor plus other analysis packages are essential $ You will have experience of working in a 
, " ———mm—— m—mm— mmm 


BT and planning skills would be expected to 


http//www imm ox.ac uk/careers/current-vacancies/statistical-bioinformatician 





If you have any questions feel free to contact me 
Kind regards and thanks. 

Steve Taylor 

Head of Computational Biology Research Group 
Weatherall Institute of Molecular Medicine 
University of Oxford 

John Radcliffe Hospital 

Headington 

Oxford OX3 9DS 

www.cbrg.ox.ac.uk 


图 1-8 一 则 生物 信息 招聘 广告 的 要 求 


1.2 R 的 下 载 与 安装 


R 总 体 上 分 为 主 程序 〈 含 基础 包 ) 和 扩展 包 两 部 分 ， 前 者 需要 从 其 官方 网 站 
(http://www.r-project.org) 下 载 并 安装 ， 后 者 则 是 需要 用 到 某 个 包 时 再 去 安装 。R 官方 网 站 提 
供 了 有 关 各 版 本 RR 主 程序 和 R dE GU 等 各 类 信息 。 


1.2. 主 程序 的 下 载 与 安装 


作为 开源 软件 , R 支持 所 有 的 系统 平台 , 一 般 下 载 页 面 会 提供 三 种 常用 操作 系统 上 的 安 
装 程序 (Windows、Linux 以 及 MacOS X)。 由 于 Linux 系统 通常 不 采用 通过 图 形 界 面 下 载 
到 本 地 再 安装 的 方式 , 而 是 采用 命令 行 方 式 在 线 安装 , 如 Fedora. 系统 , 可 以 执行 “sudo yum 
install R-devel"; Ubuntu 系统 则 需要 执行 “sudo apt-get install r-base-dev" . 由 于 不 同 的 Linux 
版 本 采用 不 同 的 工具 , 这 里 不 做 详细 介绍 。 本 书 重 点 介绍 Windows FEER 的 安装 与 使 用 ， 
以 便于 初学 者 边 学 习 边 模仿 。 

Windows 系统 必须 先 下 载 再 安装 ， 登 录 R 官方 网 站 http://www.r-project.org/， 选 择 
“download R”( 图 1-9 框 内 部 分 )， 读 者 可 以 看 到 “CRAN Mirrors” 页 面 ， 里 面包 括 了 所 有 
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R 的 镜像 网 站 ， 选 择 一 个 本 国 的 点 击 进入 下 载 页 面 。 











About R 5 t 
What is R? 
Contributors a 
Screenshots = s 
What's new? i e * 
Download, Packages T Pm E 
CRAN 
R Project ~ Getting Started: 
Foundation | 
TT -2o 4 e R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of 
Mailing Liat | UNIX platforms, Windows and MacOS. To[download R,) please choose your preferred CRAN mirror. 
Elo: Page i * 1f you have questions about R like how to download and install the software, or vhat the license terms are, please 
Cenf i read our answers to frecuentlv asked questions before you send an email. 
Search m 
: News: 
Documentation i 
FAQs A e R version 3.0.2 (Frisbee Sailing) has been released on 2013-09-25. 
E Iram . * uzsRi 2013, ok place at the University of Castilla-La Mancha, Albacete, Spain, July 10-12 2013. 
Wiki R is available. 
Books . R version 2. x 3 (Security Blanket) has been released on 2013-03-01. 


图 1-9 R 官 方 主 界面 的 部 分 截图 


首先 点 击 “Download R for Windows” 进 入 “R for Windows” 页 面 ， 初 次 安装 只 需要 选 
择 安装 基本 包 “base”( 图 1-10 中 框 内 部 分 )。 进 一 步 点 击 后 会 看 到 的 当前 版 本 “Download R 
2.14.1 for Windows (45 megabytes, 32/64 bit)” 点 击 下 载 即 可 。 


R for Windows 
Subdirectories: 


base Binaries for base distribution (managed by Duncan Murdoch). This is what you want to install R for the first time) 
CRAN contrib Binaries of contributed packages (managed by Uwe Ligges). There is also information on third party software 
Mirrors —Ü available for CRAN Windows services and corresponding environment and make variables. 
What's nex? Rtool Tools to build R and R packages (managed by Duncan Murdoch). This is what you want to build your own packages on 
Task Vievs Windows, or to build R itself. 
Seaxch 


Please do not submit binaries to CRAN. Package developers might want to contact Duncan Murdoch or Uwe Ligges directly in case of questions / suggestions 
About R related to Windows binaries. 
R Homepage 

You may also want to read the R FAQ and R for Windows FAQ. 
Software Note: CRAN does some checks on these binaries for viruses, but cannot give guarantees. Use the normal precautions with downloaded executables. 
R Binaries 
Packages 
Other 


Documentation 
Manuals 


- 





Contributed 


图 1-10 R 官 方 中 R 软 件 (Windows 版 ) 下 载 界面 


直接 运行 下 载 后 得 到 的 可 执行 文件 R-2.14.1-win.exe， 按 照 安装 向 导 〈Wizard) 的 提示 ， 
逐步 进行 安装 。 安 装 成 功 后 桌面 会 出 现 两 个 快速 启动 图 标 : 一 个 是 “R 2.14.1”， 表 示 32 位 
系统 ， 另 一 个 是 “R x64 2.14.1”， 表 示 64 位 系统 。 本 书 的 讲解 全 部 参照 64 位 英文 系统 。 


1.2.2 扩展 包 的 下 载 与 安装 


一 个 编程 语言 的 功能 强大 与 否 ， 主 要 取决 于 它 的 函数 库 ，R 的 函数 库 以 R 包 的 形式 存 
在 。 基 本 函数 库 ( 基 本 R 包 或 称 标准 RR 包 ) 和 RR 程序 同时 发 布 ， 可 以 实现 大 多 数 经 典 的 统 
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计 方 法 和 基本 的 数据 处 理 以 及 显示 功能 。R 一 个 突出 特点 就 是 有 大 量 的 扩展 R 包 存 在 ， 能 
够 实现 更 为 复杂 的 统计 绘图 、 工 程 计 算 以 及 与 其 他 语言 的 相互 调用 等 功能 。 扩 展 R 包 主 要 
有 两 个 来 源 ， 一 部 分 来 自 R 的 官方 网 站 CRAN (The Comprehensive R Archive Network, 
http:/cran.r-project.org/)， 截 止 到 本 书 撰写 大 约 有 3628 个 函数 包 可 供 下 载 ， 另 一 部 分 是 第 三 
Jj (CRAN) 管理 的 ， 如 生物 数据 分 析 包 Bioconductor Chttp://www.bioconductororg/). 第 
三 方 管理 的 R 扩展 包 在 CRAN 也 有 镜像 ， 但 由 于 相对 比较 独立 ， 因 此 本 书 将 CRAN 扩展 包 
与 第 三 方 扩展 包 分 开 对 待 。 这 里 介绍 三 种 不 同 的 扩展 包 安 装 方式 。 


(1) 在 线 安装 


如 图 1-11 所 示 ， 在 Windows 平台 上 ， 可 以 通过 图 形 界 面 菜 单 栏 选择 菜单 【Packages D? 
[Install package(s) ...], 出 现 图 中 “CRAN mirror” 界 面 。 然 后 选择 中 国境 内 的 CRAN 镜像 ， 
点 击 【 确 定 】。 接着 会 进入 供 选 择 需 要 安装 程序 包 的 界面 “Packages”， 这 里 以 常用 的 ggplot2 
为 例 ， 选 择 后 点 击 【 确 定 】 之 后 会 出 现下 载 的 程序 包 进 度 条 ， 下 载 完 成 后 会 自动 安装 ， 完 
成 后 进入 RGui 窗口 。 更 一 般 和 简单 的 方法 是 在 R 中 使 用 下 列 命令 来 安装 (适用 于 任何 操作 
， 系 统 ): 
options(CRAN= “http://cran.r-project.org”); # 指定 镜像 网 站 。 
install.packages( “ggplot2” ); 


sckages lj File Edit View Misc Packages 
aa Windows Help 


| 国 图 辐 转圈 可 图 图 — Eada 
| | R R Console ; 


Canada (QC 2) ^ 

BSI | Chile 

i | 
China (Beijing 2) 一 ggm 
China (Beijing 3) E ggmap 
China (Guangzhou) LS E | ggmcmc 

pi | China (Hefei) 8 ji GGMselect 


China (Xiamen) ~ Wm arallel E 
|| Colombia (Bogota) MUT arse Spur tae: l 
| Colombia (Cali) H ggsubplot 
|| Denmark 1 | || GhenDaily | 

Ecuador FE H ghyp 
France (Toulouse) gibbs.met 
France (Lyon 1) ! GillespieSSA 
France (Lyon 2) d | giRaph 

P! Germany (Berlin) * |! | GISTools 


Giza 
OK Cancel J 





























图 1-11 R 图 形 界面 与 菜单 栏 的 部 分 截图 
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(2) 下 载 到 本 地 安装 


在 Windows 平台 上 ， 可 以 通过 图 形 界面 菜单 平台 ， 选 择 菜 单 【Packages ]) [Install 
package(s) from local zip files...]1, 然后 找到 下 载 的 包 ， 点 击 确定 。 更 一 般 和 简单 的 方法 是 在 
R 中 使 用 命令 来 安装 ， 注 意 Windows 系统 需要 下 载 “.zip” 格 式 的 包 文 件 ，Linux 则 需要 下 
载 “.targz”。 

install.packages("C:W ggplot2.zip", contriburl = NULL) 


(3) 使 用 第 三 方 提供 的 脚本 在 线 安 装 〈 以 Bioconductor 为 例 ) 


首先 通过 source (http;//bioconductor.org/biocLite.R) 下 载 安 装 脚本 biocLite 到 环境 中 ， 
然后 使 用 biocLite 函数 安装 所 有 Bioconductor 核心 包 , 其 他 Bioconductor 程序 包 依 赖 于 这 些 
核心 包 , 所 以 必须 先 执 行 该 命令 , 待 安装 完成 后 再 安装 其 他 包 , 否则 某 些 包 将 无 法 使 用 library 
命令 加 载 。 安 装 所 需 的 特定 包 时 ， 需 要 传 入 包 的 名 称 ， 如 biocLit (“limma”). 


1.20.3 尺 语 言 的 集成 开发 环境 


主 程序 安装 完毕 ， 双 击 打开 后 就 可 进入 R 控制 台 (图 1-12)。R 软件 有 两 种 方式 来 运行 
R 代码 : 交互 模式 和 批 处 理 模式 。 在 交互 模式 下 ,用户 在 控制 台中 输入 命令 ，R 就 会 马上 返 
回 结果 。 在 批 处 理 模 式 下 ， 可 以 在 控制 台中 用 Source 函数 来 执行 编写 好 的 R 程序 。 


R version 2.14.2 (2012-02-29) 

Copyright (C) 2012 The R Foundation for Statistical Computing 
ISBN 3-900051-07-0 

Platform: i386-pc-mingw32/1i1386 (64-bit) 


R is free software and comes wich ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


R is a collaborative project wich many contributors. 
| Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 


| Type 'demo()' for some demos, 'help()' for on-line help, or 
|| 'help.start()' for an HIML browser interface to help. 
|| Type 'a0' to quit R. 








图 1-12 R 控 制 台 主 界面 
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显然 R 控制 台 提 供 的 功能 过 于 简单 。 当 然 ， 作 为 一 种 现代 编程 语言 ，R 也 有 自己 的 集 
成 开发 环境 (IDE) 一 一 RStudio。RStudio 的 主要 特点 是 出 色 的 界面 设计 、 跨 平台 、 集 成 了 多 
种 编程 辅助 工具 。 读 者 可 以 从 官方 网 站 (www.rstudio.org) 自行 下 载 安装 ， 本 书 中 使 用 的 
RStudio 版 本 是 RStudio-0.96.316， 它 具有 以 下 显著 特点 。 


(1) RStudio 的 界面 直观 而 简洁 


图 1-13 所 示 即 为 RStudio 的 运行 界面 ， 它 把 所 有 可 能 要 用 到 的 窗口 全 部 集成 到 一 个 界 
面 中 ， 分 成 Source. Console. History 以 及 Help 四 个 大 块 ， 并 以 标签 形式 展现 其 他 辅助 功 
能 。 左 上 和 角 Source 提供 了 编写 代码 的 编辑 器 ， 左 下 角 的 Console 窗口 就 是 控制 台 ， 图 像 输 
出 将 出 现在 右 下 角 Plos 窗口 ， 在 右上 角 的 History 窗口 可 查看 历史 。 所 需要 的 东西 一 目 了 


然 ， 非 常 简洁 清楚 。 


| RÌ diamondPiking. Rx | € jformalPIULR « ]diamunds x em].  Woerkspacc 
| B Flsoucesnsave Q Z7 -*Run 95» [和 Source -| ¿toads [saves Dinport Datasetr — y^ uter AN 
library(ggplot2) ^| Data 
20 | diamonds 53940 obs. or 10 variables 
3 view(diamoncs) v 
1 sunmary(d: amonds: 
aveSize C.7979 


sunmar y( d* amonds $pr ice) clarity char acter [8] 


avesSize <- round :meant di anondsicar at Js p cgp! ot [8] 
clarity «- levels(ciamonds$clarity) 
| Functions 


| format.plot(plot, size) 


p <- qplot(carat, price, 
cata-diamonds, color-clarity, 
xla»-"Carat", ylab-'"Price", 
main-"Diamond Pricing") 
Fies Plots Packages Help 
S 于 zoom expt- O, g earal 


K scnpt > 


n Diamond Pricing 


131 E opleve) s ~ 
Corsole 一 一 
x y 

Min. : 9.00€ min. : 0.000 Nir. : C.000 t. 
1st Qu.: 4.71C 1st Qu.: 4.720 ist Qu.: 2.910 "ud 1 
Median : 5.700 Median : 5.710 Necian : 3.530 
Mean 2 5.7322 Mean : 5.735 Nean : 3.539 
3rd Qu.: 6.540 3rd Qu.: 6.540 3rc Qu.: 4.040 
Max. :110.74C — Max. :38.900 Nax. :31. 800 
> Sumnary(diamcnds Spr ice) 

Min. ist Qu. wedian Mean 3rd Qu. Max. 





326 9sc 2401 3933 5324 18820 
» avesize «- rcund(mean(diamonds$carat), 4) 
> clarity <- levels(diamonds$clarity) 
» p «- cplot(carat, price, 
data-diamonds, color-c'arity, 
xlah-"carar", ylahe"Pr-ce", 
main= “Diamond Pricing") 





fornat.plot(plot-p, size-2:) 














图 1-13 ”RStudio 的 主 界面 


(2) 多 种 编程 辅助 工具 


RStudio 的 编辑 器 有 代码 自动 补 全 功能 ， 对 于 记得 不 大 清楚 的 函数 ， 可 以 使 用 Tab 键 来 
获得 函数 名 和 参数 的 提示 帮助 。 对 于 图 像 生成 的 辅助 也 很 好 ， 有 非常 方便 的 Export 按钮 帮 
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助 导出 各 种 格式 的 图 片 。 另 外 对 于 R 中 包 的 操作 也 非常 直观 ， 可 以 在 Package 页 面 中 查看 
已 经 安装 的 包 并 可 以 勾 选 需要 加 载 的 包 。 对 于 代码 很 多 的 用 户 提供 了 Project 功能 ， 以 方便 
管理 不 同 项 目的 代码 ， 而 且 RStudio 还 整合 了 git 版 本 控制 。 


(3) RStudio 支持 在 文档 中 混 编 代码 


用 户 在 撰写 数据 分 析 报 告 时 ， 往 往 需 要 先 在 R 中 运行 代码 ， 然 后 将 运行 结果 以 文本 或 
图 形 方式 拷贝 到 报告 中 ， 这 样 排版 的 效率 极 低 ， 而 且 很 容易 出 错 。 但 现在 只 要 将 RStudio 结 
合 knitr 包 ， 就 可 以 在 一 个 文档 中 混 排 文本 、 图 形 、 程 序 源 代码 等 所 有 元 素 ， 分 析 结 果 会 被 
自动 插入 该 文档 ， 并 以 各 种 格式 (HTML, XML, Word 或 PDF) 输出 ， 从 而 方便 修改 和 分 
享 研究 过 程 。 

RStudio 支持 两 种 新 文件 格式 ， 分 别 是 Rnw 格式 和 Rmd 格式 。 在 Rnw 文件 中 ， 你 可 以 
混合 编写 Tex 代码 和 R 代码 ，R 代码 由 特定 标记 进行 注 明 。 点 击 编译 PDF 时 ，R 代码 会 先 
被 调用 执行 ， 并 输出 相应 的 结果 到 文档 中 《〈 源 代码 都 被 相应 的 计算 结果 代替 )， 然 后 再 调用 
Tex 编译 文档 为 PDF， 然 后 合成 为 最 终 的 报告 。 报 告 中 对 R 代码 会 自动 进行 语法 高 亮 ，R 运 
行 的 结果 也 自然 插入 到 报告 之 中 。 但 Te 编写 比较 复杂 ， 门 槛 较 高 ， 而 且 有 时 用 户 也 需要 生 
成 Word 文档 进行 处 理 , 所 以 对 于 入 门 用 户 还 是 推荐 R+Markdown 的 方式 , 也 就 是 Rmd 文档 ~ 

在 Rmd 文件 中 ， 人 允许 用 户 混 合 编写 Markdown 代码 和 R 代码 ，Markdown 一 种 非常 简 
洁 的 标记 语言 ， 它 能 使 书写 变 得 简单 ， 而 只 需要 5 分 钟 就 能 学 会 。 本 书 就 是 利用 的 Rmd 的 
混 编 模式 来 生成 的 。 下 面 通过 一 个 具体 例子 来 详细 介绍 如 何 使 用 R+Markdown。 

(D 安装 RStudio 5j knitr 包 ( 需 要 R2.14.2 以 上 版 本 支持 ); 

source("http://bioconductor.org/biocLite.R"); 
# 安装 全 部 Bioconductor 扩展 包 。 
biocLite(); 

biocLite("knitr"); 

@ 打开 RStudio 点 击 Tools, HA Options 进行 设置 ， 具 体 如 图 1-14 所 示 ; 

© 然后 根据 Markdown 语法 编写 文本 ; 

© 当 需 要 插入 R 代码 时 ， 点 击 Insert Chunks 来 插入 一 个 空 的 R 代码 区 ; 

© 在 空白 文档 中 插入 文本 《图 1-15 红色 框 内 )、 图 片 和 R 程序 代码 (图 1-15 蓝 色 和 
红色 框 内 ); 

© 点 击 Knit HTML (图 1-15 黑色 框 内 )， 该 文档 编译 为 HTML 格式 ， 并 在 另 一 窗口 
显示 ， 同 时 生成 Untitled1.html 和 RmdUntitled1.md 两 个 文件 ; 

@ 如 果 需 要 生成 Word 文档 ， 需 另外 下 载 并 安装 pandoc 软件 ， 在 终端 内 输入 
shell ( “pandoc input.md -o output.docx”) 即 可 (图 1-15 绿色 框 内 )。 
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Options 
~ | Program defaults (when not in a project) 
RD 
XA Weave Rnw files using: ? 
General 


Typeset LaTeX into PDF using: ? 


NOTE The Rnw weave and LaTeX compilation options are aiso set on a per-project (and 
Code Editing optionally per-fiie) basis Click the help icons above for more details. 


a LaTeX editing and compilation 


pr 园 Clean auxiliary output after compile 


Enable shell escape commands 


T [Insert numbered sections and subsections 
Pane Layout 


| []Invoke compiler via texi2dvi script 











| PDF preview 
Sweave | 
Preview PDF after compile using: [Sumatra (Recommended) Y | ? 
ABC 
P4 | [VjAlways enable Rnw concordance (required for synctex) 
Spelling 


Version Control | 





全 OK — | Cancel | Apply 


图 1-14 RStudio 中 Sweave 设 置 的 示意 图 





File Edit Code View Project Workspace Plots Tools Help 





CT- Bd R Al ^ 
Q Untitledl* s “A 
E "Q mo Lg Knit HIML -—*Run b+ (jg Chunks- 
x 
2 
3 
4 RSstudio 的 操作 。 这 个 小 程序 首先 生成 了 100 个 正 态 分 布 
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7 
8]set.seed(1234)  # 设 定 随 机 数 种 子 ， Jahr o ob 【重复 
9 [x = rnorm(100) *# 生 成 100 个 符合 正 态 分 布 (总 体 平均 值 为 0， 标 准 差 为 1) 的 随机 数 
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图 像 输 出 将 出 现在 右 下 角 Plots 窗 口 。 我 们 在 本 例 中 绘制 一 个 直方 图 ， 并 添加 一 条 曲线 。 
19- "ir fig.width-7, fig.heighte6) 





hist(x,freq-F,col-'grey',border- white') 





lines (density(x), 1ty=2, Iwd-2) *Hlinestfi $t 
21 
22 上 我 们 运行 以 下 终端 命令 ， 生成 Word 文 档 myscript.docx。 
23 
24~ ^ir] 
25 
26 [shell("pandoc myscript.md -o myscript.docx") 
27 
zm n 


图 1-15 ”RStudio 中 文本 、 代 码 和 注释 的 混 排 〈 见 彩 图 》 
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1.2.4 民主 程序 和 扩展 包 的 管理 与 升级 


R 主 程序 所 有 文件 都 可 以 在 用 户 指定 的 安装 目录 内 找到 ， 如 上 例 指定 为 “C:\Program 
Files\R\R-2.14.1”。 安 装 目 录 下 有 3 个 重要 的 子 目录 。 第 1 个 是 “bin”， 里 面包 括 了 R 软件 
的 所 有 可 执行 文件 ， 第 2 个 是 “library”， 里面 包括 了 R 所 有 的 基本 函数 库 〈 基 本 R 包 ); 
第 3 个 是 “etc”， 包括 所 有 的 配置 文件 ， 用户 可 以 通过 改写 配置 文件 对 R 主 程 序 的 功能 进行 
设置 。 下 面 举 一 个 例子 说 明 如 何 配置 R 控制 台 : R 控制 台 会 自动 给 出 警告 或 错误 信息 ， 其 
相应 语言 会 根据 操作 系统 自动 设置 ， 中 文 操作 系统 的 警告 或 错误 信息 就 是 中 文 的 ， 但 是 目 
前 中 文 的 翻译 效果 不 理想 (图 1-16), 而 且 网 上 搜索 更 多 采用 英文 信息 作为 关键 词 ， 所 以 需 
要 将 此 类 信息 设 定 为 英文 显示 。 具 体 做 法 是 : 进入 “etc” 目 录 ， 打 开 文 本 文件 Reconsole， 
找到 行 “ 拓 Language for messages”， 在 下 一 行 添加 或 改写 “language = en". 

















ED 
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> library (edgeR) 


错误 于 library (edgeR) : PENY ‘edger 这 个 名 字 的 程 辑 包 


> 





IR. RGui (64-bit) - [R Con w-— we — 
Rar scam er em emet 

















elea feo] a 5] 


> library (edgeR) 

Loading required package: limma 

Warning messages: 

1: package 'edgeR' was built under R version 2.14.2 
i iE ‘limma’ was built under R version 2.14.2 
- 





图 1-16 警告 与 错误 信息 的 英文 提示 


Linux 系统 上 ， 由 于 有 yum 等 软件 管理 工具 ， 可 以 用 这 些 工具 将 R 主 程 序 直 接 升级 到 
最 新 版 本 。 在 Windows 系统 上 ，R 主 程序 不 支持 直接 升级 ， 一 般 需 要 卸载 旧版 本 ， 然 后 再 
下 载 安 装 新 版 本 。 也 可 以 不 卸载 旧版 本 就 安装 新 版 本 ， 这 样 就 保留 了 旧版 本 ， 这 在 实际 工 
作 中 很 有 用 。 例如， 在 科学 研究 中 , 经常 需 要 重复 前 期 工作 (相应 程序 代码 建立 在 旧版 本 R 
基础 上 )， 新 版 本 不 可 能 对 旧版 本 100% 兼 容 ， 因 此 计算 结果 会 有 一 定 差异 ， 必 须 保留 旧版 本 。 

初次 安装 尽量 不 要 选 最 新 版 本 ， 新 版 本 往往 不 稳定 ， 内 部 存在 诸多 Bug。 如 果 R 扩展 
包 对 R 主 程序 有 最 低 版 本 要 求 ， 则 必须 升级 。 如 例 2.4.1 (图 1-16) 中 ，Bioconductor 的 两 
个 扩展 包 edgeR (2.4.6) 和 limma (3.10.3) 要 求 R 主 程序 最 低 版 本 是 R-2.14.2， 因 此 R 控 
制 台 在 加 载 edgeR 时 给 出 警告 。 如 果 坚 持 在 R-2.14.1 上 运行 这 两 个 包 ， 可 能 会 影响 计算 结 
果 ， 因 此 建议 R 主 程序 升级 到 R-2.14.2 以 上 版 本 。 

扩展 R 包 的 存放 位 置 也 在 第 一 次 安装 时 由 用 户 指定 ， 如 上 个 例子 指定 为 C:\Users\ 
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gaoshan\Documents\R\win-library\2.14.。 对 于 多 用 户 操 作 系 统 , 每 个 用 户 可 以 有 自己 的 扩展 及 
包 路 径 。 升级 主 程序 时 , 可 以 通过 简单 移动 , 继续 使 用 已 安装 的 扩展 包 ( 旧 版本)。 如 例 2.4.1 
中 ， 首 先 安 装 R2.15.1 主 程序 ， 然 后 将 旧 目 录 〈 如 上 例 .\win-library\2.14) 中 所 有 的 文件 找 
贝 到 新 目录 C:\Users\gaoshan\Documents\R\win-library\2.15， 最 后 运行 下 面 语句 : 

update.packages(checkBuilt=TRUE, ask=FALSE) 

但 是 上 面 的 做 法 存在 一 个 问题 ， 即 不 能 保证 R 扩展 包 与 R 主 程序 的 版 本 一 致 性 。R 扩 
展 包 的 开发 和 更 新 很 快 ， 用 户 在 使 用 时 ， 需 要 保证 R 扩展 包 与 R 主 程序 的 同步 升级 。 上 例 
中 , 我 们 把 R 主 程序 从 R2.14.1 升级 到 了 R2.15.1, 但 是 扩展 包 edgeR 和 limma 还 是 旧版 本 ， 
如 果 一 定 要 在 新 版 本 的 R 主 程序 上 运行 旧 的 RR 扩展 包 ， 有 可 能 不 能 用 到 最 新 扩展 包 带 来 的 
新 功能 。 另 外 ， 最 主要 的 是 新 版 本 的 R 扩展 包 修复 了 旧 包 的 一 些 Bug， 因 此 同步 升级 是 很 
必要 的 .特别 对 于 Bioconductor 来 说 , 很 大 一 部 分 运行 错误 都 是 由 于 旧 R 扩展 包 存 在 的 Bug， 
而 解决 方法 主要 依靠 R 扩展 包 升 级 。 CRAN 扩展 包 可 以 通过 update.packages 函数 在 线 升 级 ; 
Bioconductor 扩展 包 升 级 也 很 简单 ， 只 需要 在 新 版 本 的 R 主 程序 中 运行 下 列 语句 : 

source("http://bioconductor.org/biocLite.R") 

update.packages(repos-biocinstallRepos(), ask-FALSE) 

或 者 全 部 重新 安装 所 有 已 经 存在 的 Bioconductor 扩展 包 ， 这 对 互联 网 带宽 有 一 定 要 求 。 

source("http://bioconductor.org/biocLite.R"); 

pkgs <- rownames(installed.packages()); 

biocLite(pkgs); 


1.3 民 语 言 快速 入 门 


1.3.1 从 哪里 入 手 开 始 学 习 民 


本 书 读 到 这 里 ， 所 有 的 读者 都 会 有 如 下 一 些 问题 : R 语言 这 么 强大 ， 是 不 是 很 难 学 ? 如 
果 没 有 计算 机 基础 从 头 学 习 有 语言 ， 产 出 和 投入 比 是 否 合理 ? 学 习 有 语言 有 没有 捷径 ? 

通常 来 讲 ， 掌 握 一 门 编程 语言 ， 首 先 要 学 习 大 量 语法 ， 并 阅读 他 人 的 源 代码 。 语 法 学 
习 已 经 相当 耗 时 了 ， 对 于 没有 计算 机 基础 的 初学 者 更 是 难 上 加 难 。 阅 读 他 人 的 源 代码 需要 
非常 好 的 代码 注释 ， 而 往往 这 方面 的 资料 又 奇 缺 。 无 论 从 哪个 方面 入 手 ， 都 会 遇 到 一 定 的 
困难 。 但 是 本 书 可 以 很 明确 地 告诉 你 ，R 语言 之 所 以 强大 ， 不 仅仅 在 于 它 的 易学 上 手 快 ， 还 
在 于 投入 小 产 出 大 。 我 们 在 大 量 的 教学 及 培训 经 验 基础 上 ， 为 读者 选择 了 这 样 一 条 捷径 ， 
那 就 是 根据 难度 递增 原则 ， 阅 读 具 有 代表 性 的 源 代码 《〈 附 有 详细 注释 )， 并 及 时 总 结 用 到 的 
语法 ， 使 读者 由 浅 入 深 慢 慢 学 会 如 何 编 程 ， 如 何 查阅 资料 自行 解决 问题 ， 最 后 达到 熟练 使 
用 R 的 程度 。 这 样 做 的 另外 一 个 好 处 是 ， 读 者 在 学 习 R 语言 的 同时 ， 还 可 以 直接 使 用 或 者 
改写 我 们 提供 的 代码 ， 以 完成 自己 的 应 用 。 
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1.3.2 三 板 答 搞 定 尺 语言 


R 软件 有 两 种 方式 来 运行 R 程序 ， 交 互 模式 和 批 处 理 模式 。 在 交互 模式 下 ， 用 户 在 控 
制 台中 输入 命令 , R 就 会 马上 返回 结果 。 在 批 处 理 模式 下 , 用 户 先 在 编辑 器 中 输入 代码 文本 ， 
然后 在 控制 台中 用 source 函数 来 执行 编写 好 的 R 程序 。 交 互 模式 可 以 使 读者 详细 地 观察 每 
一 步 数据 处 理 得 到 的 即时 结果 ， 为 学 习 R 语言 提供 了 便利 。 本 书 为 了 便于 读者 调试 运行 所 
有 出 现 的 R 源 代 码 ， 专 门将 它们 汇总 为 电子 资源 ， 读 者 不 必 人 工 输入 程序 代码 。 

为 了 使 读者 快速 掌握 R 语言 ， 本 书 推出 三 板 作 快 速 学 习 法 : 

@ 安 装 和 加 载 需要 的 扩展 包 ; 

@ 设 定 工作 目录 ， 并 保证 输入 数据 存在 ; 

@@ 复 制 粘 贴 代码 ， 运 行程 序 。 


1.3.3 ”一 个 倒 子 来 说 明 三 板 算 


上 文 的 例 1-1 中 ， 主 要 用 到 了 三 个 扩展 包 : XML 包 用 于 从 地 震 信 息 网 抓 取 最 近 一 周 的 
地 震 数 据 ，ggmap 包 用 于 获取 google 地 图 ; ggplot2 用 于 最 后 的 合成 绘图 。 通 过 学 习 下 面 代 
码 ， 读 者 就 会 发 现 ， 掌 握 有 效 的 方法 来 实现 R 编程 ， 将 会 使 得 一 个 复杂 功能 的 代码 非常 
简洁 。 


(1) 安装 和 加 载 需要 的 扩展 包 ， 读 者 可 以 拷贝 并 在 控制 台中 运行 下 列 代码 


install.packages(ggmap ); 
install.packages('maps"); 
install.packages( XML); 
install.packages('ggplot2"); 
install.packages( mapproj^; 
library(ggplot2); 
library(ggmap); 
library(XML); 
library(maps); 
library(mapproj); 


(2) 设 定 工作 目录 ， 并 保证 输入 数据 存在 


大 部 分 情况 下 ， 待 处 理 的 数据 需要 本 地 读 取 ， 则 要 存放 在 R 知道 的 地 方 ， 即 工作 目录 
(Working Directory). TE R 中 getwd 函数 可 以 用 来 查询 当前 目录 ，setwd(diD 函 数 则 用 来 指定 
当前 工作 目录 〈 并 不 能 永久 性 的 改变 ， 如 若 想 永久 性 改变 工作 目录 可 以 按照 “右键 快捷 方 
式 图 标 / 属 性 /起 始 位 置 ” 步 骤 直 接 修改 即 可 )。 如 果 使 用 RStudio， 也 可 以 使 用 快捷 键 
Ctrl-Shift-K 来 设 定 工作 目录 。R 可 以 从 多 种 渠道 接收 输入 数据 ， 除 了 前 面 提 到 的 本 地 文件 
的 方式 ， 还 可 以 从 互联 网 主页 直接 获取 数据 。 本 例 中 的 数据 采集 自 网 址 
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http://data.earthquake.cn/datashare/globeEarthquake_csn.html。 为 了 保证 输入 数据 的 存在 , 编写 
代码 前 需要 在 浏览 器 中 输入 网 址 确认 该 页 面 可 以 正常 访问 。 


(3) 复制 粘贴 代码 并 运行 程序 


将 下 面 的 全 部 代码 复制 粘贴 到 R 的 控制 台中 ， 然 后 回 车 执行 ;或 者 是 复制 到 RStuido 
中 ， 全 选 后 点 击 run， 读 者 即 可 以 看 到 图 1-2 显示 的 结果 。 然 后 ， 逐 行 复制 粘贴 ， 并 回 车 执 
行 ， 所 有 的 中 间 结 果 都 保存 在 变量 中 ， 读 者 可 以 直接 输入 变量 名 称 并 回 车 ， 即 可 看 到 该 变 
量 的 所 有 信息 。 

url <- "http://data.earthquake.cn/datashare/globeEarthquake, csn.html'; 

tables <- readHTML Table(url,stringsAsFactors = FALSE); 

raw «- tables[[6]]; 2 

data «- raw[ ,c(1,3,4)]; 

names(data) <- c('date','lan','lon'); 

data$lan <- as.numeric(data$lan); 

data$lon <- as.numeric(data$lon); 

data$date <- as.Date(data$date, "%Y-%m;%d"); 

ggmap(get_googlemap(center='china',zoom=4,maptype='terrain'),extend='device')+geom_ 
point(data=data,aes(x=lon,y=lan),colour='red',alpha=0.4)+opts(legend.position="none"); 


1.4 一 些 简单 的 语法 知识 


1.4.1 什么 是 编程 


计算 机 通过 接收 指令 指挥 机 器 工作 ， 人 们 通过 编制 程序 表达 自己 的 意图 ， 并 交 给 计算 
机 执行 。 程 序 就 是 一 系列 按 一 定 顺序 排列 的 指令 ， 执 行程 序 的 过 程 就 是 计算 机 的 工作 过 程 。 
在 硬件 层面 一 条 指令 包括 两 方面 的 内 容 : 操作 码 和 操作 数 ， 操 作 码 决定 要 完成 的 操作 ， 操 
作 数 表示 参加 运算 的 数据 及 其 所 在 的 单元 地 址 。 

在 R 这 类 高 级 语言 中 ， 操 作 码 扩展 为 函数 ， 操 作 数 扩展 为 变量 。 变 量 用 于 接收 数据 ， 
函数 实现 对 数据 的 处 理 。 因 此 ， 只 要 掌握 了 变量 和 函数 两 方面 内 容 ， 就 可 以 学 好 任何 一 门 
编程 语言 。 

上 文 的 例 1-3 的 程序 由 9 条 语句 指令) 组 成 ， 每 条 语句 一 行 ， 结 尾 不 需要 任何 标点 
符号 ， 也 可 以 以 分 号 作为 结束 标志 这 点 与 常见 编程 语言 相同 )。 整 个 程序 可 以 一 起 拷贝 到 
R 控制 台中 回 车 运行 ， 也 可 以 逐 行 拷贝 单独 运行 。 


1.4.2 变量 


例 1-1 中 的 “unl”“tables”“raw” 等 所 有 “<-” 前 出 现 的 东西 都 叫做 变量 ， 变 量 对 应 
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计算 机 的 内 存 或 寄存 器 地 址 ， 用 于 保存 数据 。R 语言 的 一 个 重要 特点 就 是 向 量化 操作 ， 即 R 
的 变量 常常 是 一 个 向 量 。 向 量化 运算 的 优点 在 于 使 代码 变 得 简洁 易 懂 ， 而 且 回 避 了 循环 ， 
使 运算 速度 加 快 。 下 面 代码 用 c 函数 来 构建 一 个 包含 了 4 个 元 素 CA 维 ) 向 量 ， 并 赋值 给 变 
量 Xo 运行 如 下 : 

> x «-c(1,2,3,4) 

>x 

[1]1234 

向 量 之 间 可 以 进行 加 减 乘除 在 内 的 各 种 运算 ， 例 如 运行 

> c(1,2,3,4) + c(3,4,5,6) 

[1] 4 6 810 

由 于 向 量 中 可 以 存放 数值 、 逻 辑 和 字符 等 类 型 的 数据 ， 因 此 向 量 又 可 以 分 为 数值 型 、 
逻辑 型 和 字符 型 等 ， 更 多 的 关于 向 量 的 数据 类 型 的 内 容 请 参见 第 七 章 。 上 例 中 的 向 量 就 是 
一 个 数值 向 量 ， 而 例 1-1 中 的 “url” 保 存 的 就 是 包含 一 个 元 素 的 字符 向 量 ， 下 例 是 一 个 包 
含 两 个 元 素 的 字符 向 量 : 

> c("hello world", "I am a R user") 


[1] "hello world" "I am aR user" 
1.4.8 ”函数 


在 R 语言 中 ， 所 有 的 操作 都 是 由 函数 来 完成 的 。 计 算 机 语言 中 的 函数 由 函数 名 和 参数 
(也 是 一 种 变量 ) 两 项 组 成 的 。 函 数 对 输入 的 数据 进行 某 种 运算 或 操作 ， 再 将 结果 《〈 函 数值 ) 
作为 输出 返回 。 例 如 下 面 计算 指数 的 例子 : 

> exp(0) # 调用 函数 exp 计算 0 的 自然 指数 。 

[1] 1 

其 中 exp 是 函数 名 ， 括 号 中 的 0 即 为 输入 值 ， 而 结果 1 则 是 函数 的 输出 。 如 果 用 向 量 x 
替换 数值 0， 就 可 以 分 别 计 算 x 中 每 个 值 的 指数 。 

>x<-1:4 # 产生 一 个 向 量 (1,2,3,4). 

> exp(x) 

[1] 2.718282 7.389056 20.085537 54.598150 

R 的 函数 大 部 分 是 内 置 的 ,也 就 是 说 不 需要 定义 函数 这 一 处 理 的 过 程 。 但 是 在 很 多 时 候 ， 
需要 编写 自 定义 函数 来 完成 特定 的 目的 ， 这 在 R 中 是 很 容易 做 到 的 。 下 面 定 义 了 一 个 计算 
圆 面 积 的 函数 ， 然 后 调用 这 个 自 定 义 函 数 来 计算 半径 为 4 的 圆 面 积 : 


> area«-function(x)( # 定义 函数 ， 函 数 名 是 area， 参 数 x 用 来 接受 输入 。 
+ result«-pi*x^2 # 计算 半径 为 x 的 圆 面积 。 

+ return(result) # 定义 返回 值 ， 来 自 变量 result。 

+} 

> area(4) # 调用 函数 area 计算 半径 为 4 的 圆 面积 。 


[1] 50.26548 
上 例 中 的 函数 只 有 一 个 输入 值 和 一 个 输出 值 ， 当 然 输入 输出 可 以 有 多 个 值 。 下 例 希 望 
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输入 两 个 值 ， 然 后 分 别 算出 它们 的 和 与 差 。 


> add.diff<-function(x,y){ # 输入 参数 有 2 个 ，x 和 y。 

+ add<-x + y # 计算 x+y 的 值 ， 并 存 入 变量 add。 

+ diff<-x — y # 计算 x 一 y 的 值 ， 并 存 入 变量 diff。 

+ return(c(add,diff)) # 定义 返回 值 ， 回 量 (add,diffp)。 

+} 

> add.diff(x=5,y=3) # 调用 函数 add.diff 来 计算 5 和 3 的 和 与 差 。 
[1] 82 


R 语言 中 的 函数 除了 完成 计算 功能 ( 即 根据 输入 值 产生 输出 值 》 外 ， 还 可 以 完成 绘图 、 


文件 读 取 、 网 络 访问 等 多 项 任务 。 由 于 函数 能 方便 地 重复 使 用 ， 所 以 在 学 习 使 用 R 语言 时 
可 以 尽量 将 代码 以 函数 形式 编写 。 


1.4.4 综合 案例 


本 小 节 我 们 将 结合 前 面 的 地 震 例 子 来 综合 练习 一 下 本 章 所 学 的 变量 和 函数 的 基本 知 


。 在 这 个 例子 中 用 到 的 函数 有 : 


readHTMLTable() # 读 入 HTML 格式 的 表格 。 
names() # 取 一 个 表格 各 列 的 名 称 。 
as.numeric() # 将 向 量 转 换 为 数值 类 型 。 
as.Date() # 将 向 量 转换 为 时 间 格 式 。 


ggmap() get googlemap(). geom point(), opts) # 这 4 个 函数 组 合用 于 画图 。 
在 这 个 例子 中 ， 字 符 向 量 有 url. c(1,3,4). c('date';'lan'/lon)5; 数值 向 量 有 data$lan 和 


data$lon 等 。R 程序 的 所 有 的 中 间 结 果 都 保存 在 变量 中 , 读者 可 以 直接 输入 变量 名 称 并 回 车 ， 
即 可 看 到 该 变量 保存 的 数据 ， 如 下 例 : 


> data$lan[1:5] #[] 中 表示 取向 量 data$lan 的 第 1 到 5 个 元 素 。 
> 25.10 32.30 40.90 31.80 24.41 


1.5 本 章 源 代码 详解 及 小 结 


每 章 的 重要 程序 源 代码 都 会 详细 注释 ， 供 读者 进一步 学 习 ， 以 提高 编程 能 力 ， 所 有 源 


代码 的 电子 版 都 通过 网 站 发 布 〈 参 看 前 言 )， 方 便 读 者 拷贝 运行 。 


1.5.1 ^4 1-1 
library(ggplot2) * 加 载 ggplot2 包 。 
library(ggmap) # 加 载 ggmap 包 。 
library(XML) # 加 载 XML &. 


library(maps) # 加 载 maps 包 。 
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library(mapproj) # 加 载 mapproj 包 。 


# 将 数据 所 在 网 址 作为 字符 串 存 入 url 变量 中 。 
url <- 'http://data.earthquake.cn/datashare/globeEarthquake csn.html'; 


# 对 该 网 页 内 容 进行 解析 ， 读 取 其 中 的 所 有 表格 ， 并 存 入 tables 变量 中 。 
tables <- readHTML Table(url,stringsAsFactors = FALSE) ; 


# 取出 我 们 所 需 的 第 6 个 表格 ， 存 入 变量 raw. 
raw «- tables[[6]] ; 


# 查 看 表格 的 第 一 行 数据 ， 这 里 不 显示 结果 。 


raw[1,] 


# 只 保留 时 间 、 经 度 、 纬 度 这 三 列 数据 ， 并 存 入 变量 data. 
data <- raw[ ,c(1,3,4)] ; 


# 修改 data 包含 的 表格 各 列 的 名 称 为 'date、'1an 和 "on 。 


names(data) <- c(date' ,lan' ,lon ) ; 


# 将 经 度 (data$lan) 和 纬度 (data$lon) 的 数据 类 型 用 函数 as.numeric〈) 转换 为 数值 类 型 
data$lan <- as.numeric(data$lan) ; 
data$lon <- as.numeric(data$lon) ; 


# 将 时 间 (data$date) 的 数据 类 型 用 函数 as.Date O 转换 为 时 间 类 型 ("9%Y-%m-%d")。 
data$date <- as.Date(data$date, "%Y-%m-%d"); 
# 用 ggmap 包 读 取 地 图 (该 地 图 中 心 为 '"china'， 放 大 4 倍 ， 地 图 类 型 为 地 形 图 ， 范 围 
为 整个 图 形 设 备 ) + 玲 加 散 点 图 〈 散 点 数据 来 源 于 data 数据 框 ， 以 数据 经 纬度 作为 坐标 值 ， 
散 点 颜色 为 红色 ， 透 明度 为 0.7， 图 解 位 置 无 )。 
ggmap(get googlemap(center-'china', zoom-4, maptype- terrain', extend='device )+ 
geom point (data-data, aes(x-lon,y-lan), colour-'red', alpha=0.4)+ 
opts(legend.position-"none"); 


1.5.2 441-2 
library (igraph); # 加 载 igraph &. 


# 根据 Barabasi-Albert 模型 生成 一 个 网 络 , 该 网 络 包括 100 个 节点 , 每 次 生成 时 出 现 一 
AX] 〈m=1)。 变 量 g 是 一 个 对 象 〈 参 见 第 七 章 )， 包 含 了 这 个 网 络 的 所 有 信息 。 
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g <- barabasi.game (100, m=1); 


# 绘制 网 络 图 。 

plot( g, # 画图 的 对 象 是 g。 

vertex.size-4, # 顶点 的 大 小 设置 为 4。 
vertex.label-NA, # 顶点 的 标签 设置 为 无 。 
edge.arrow.size=0.1, # 点 之 间 连 线 的 箭头 大 小 设置 为 0.1。 
edge.color-"grey40", 8 点 之 间 连 线 的 颜色 设置 为 灰 度 。 
layout-layout.fruchterman.reingold, # 设置 整体 的 布局 方式 。 
vertex.color-"red", # 顶点 的 颜色 设置 为 红色 。 

frame- TRUE); # 绘图 包括 整体 边框 。 


注意 : 这 里 的 plot 函数 并 不 是 基础 包 中 的 那个 plot 函数 , 为 了 达到 调用 统一 ,这 个 plot 
函数 用 范 型 实现 ， 也 就 是 一 个 统一 的 接口 ， 其 底层 会 调用 plotigraph 具体 完成 画图 功能 。 


1.5.3 4 1-3 
library(quantmod) # 加 载 quantmod 包 。 


# getSymbols 函数 自动 连接 Yahoo 数据 源 ， 必 须 保证 网 络 连接 正常 。 读 取 的 数据 源 是 
SSEC (上 证 指数 的 Yahoo 代码 )， 时 间 范 围 是 从 '2011-01-01' 到 '2012-07-13'. 
getSymbols(^SSEC', from = '2011-01-01', to='2012-07-13') 


# 得 到 的 数据 保存 在 SSEC 这 个 对 象 中 ， 查 看 表格 的 第 一 行 数据 ， 这 里 不 显示 结果 。 
SSEC[1,] 


# 绘图 K 线 图 ， 时 间 是 最 近 的 4 个 月 ， 主 题 使 用 白色 蜡烛 图 ， 不 使 用 其 他 的 技术 指标 
(TA). 


candleChart (last(SSEC,'4 months"), theme-chartTheme(' white", TA=NULL) 


# 添加 MACD 指标 ， 使 用 默认 参数 。 
addMACD() 


注意 : 数据 下 载 是 从 1 到 7 月 ， 共 7 个 月 ， 但 是 作 图 只 作 4 到 7 Hir 4 个 月 的 结果 ; 
下 载 的 数据 必须 包括 作 图 的 数据 的 时 间 范 围 ， 和 否则 系统 会 自动 调整 为 显示 下 载 数据 的 时 间 
范围 ， 不 会 报错 。 
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1.5.4 41-4 


(D 课题 背景 


高 山 等 人 中 通过 多 任务 学 习 的 方法 在 12 种 癌症 中 寻找 癌症 共同 发 病 基 因 (common 
cancer gene)。 数 据 来 自 的 12 组 基因 芯片 (型 号 都 来 自 Affymetrix 公司 的 Human Genome U133 
系列 )， 分 别 对 应 12 种 常见 癌症 ， 每 组 数据 都 有 疾病 和 对 照 〈 正 常 ) 样本 不 等 。 多 任务 学 
习 算法 初步 从 22 215 个 基因 〈 探 针 组 ) 中 筛选 了 4993 个 ， 又 通过 权重 分 析 最 终 得 到 了 72 
个 共同 发 病 基因 。 下 一 步 的 分 析 集中 在 对 4993 和 73 两 个 基因 列表 的 基因 进行 基因 本 体 论 
(Gene Ontology, GO) 分 析 。 该 项 目的 整体 介绍 详 见 第 五 章 。 

GO 分 析 包 括 : 把 基因 列表 提交 到 Gorilla 网 站 Chttp://cbl-gorilla.cs.technion.ac.il/) ， 就 
可 以 得 到 这 组 基因 对 应 的 GO 术语 (term) 的 列表 ， 简 称 GO 列表 。 最 后 ， 通 过 REVIGO 
网 站 CH Gorilla 网 站 自动 跳 转 ) 计算 这 些 GO 术语 之 间 的 关系 ， 并 将 结果 用 图 形 显示 ， 给 
研究 人 员 提 供 进一步 分 析 的 线索 。 需 要 注意 的 是 ，REVIGO 网 站 来 显示 关系 图 的 时 候 ， 一 
方面 会 受到 服务 器 和 网 络 的 影响 ， 而 且 用 户 不 能 根据 自己 的 需要 详细 设 定 显示 的 参数 。 因 
此 REVIGO 网 站 在 显示 关系 图 的 同时 ， 输 出 相应 的 RR 语言 绘图 代码 ， 用 户 下 载 后 可 以 非常 
方便 地 在 本 地 作 图 ， 充 分 利用 了 R 的 强大 绘图 功能 。 


(2) 课题 实现 


首先 从 本 书 的 电子 资源 〈 见 附录 〉 获取 基因 列表 文件 gene_list1.txt; 然后 到 GOrilla 网 
站 提交 这 个 文件 ， 在 默认 参数 下 运行 【Search Enriched Go terms]. 在 结果 页 面 可 以 看 到 GO 
列表 。 点 击 【Visualize output in REVIGO]】， 网 页 自动 跳 转 到 REVIGO 网 站 ， 点 击 【Start 
Revigo】， 就 可 以 看 到 GO 术语 (仅仅 包括 Process 有 关 的 所 有 术语 ) 之 间 的 关系 图 。 最 后 
点 击 【Make R script for plotting] FA R 代码 ， 本 地 运行 ， 就 可 以 得 到 图 1-5 的 结果 。 


(3) 源 代码 详细 注解 


library(ggplot2); # 加 载 ggplot2 包 。 

library(scales); st 加 载 scales 包 。 

# 导入 数据 ， 生 成 一 个 矩阵 格式 的 对 象 revigo.data 保存 所 有 数据 ， 每 行 代表 一 个 聚 类 后 
的 GO 术语 ， 各 列 依次 为 : GO 术语 的 ID、 文 字 描述 、 百 分 比 频率 、X 轴 坐 标 、Y 轴 坐 标 等 。 

revigo.names <- c('term ID", "description", "frequency 96", "plot X", "plot Y", 
"plot size", Vlog1O p value", "uniqueness", "dispensability"); 

revigo.data «- rbind(c("GO:0009698", "phenylpropanoid metabolic process", 0.024, 
1.380, -8.143, 3.438, -6.7645, 0.675, 0.000), 

c("GO:0021722", "superior olivary nucleus maturation", 0.000, -4.773, 3.914, 0.845, 
-3.5935, 0.874, 0.000), 

c("GO:0019748", "secondary metabolic process", 0.081, -6.414, 0.228, 3.966, -5.0550, 
0.909, 0.007), 
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c("GO:0042440", "pigment metabolic process", 0.324, -0.765, 0.844, 4.568, -4.3893, 
0.909, 0.009), 

c("GO:0051299", "centrosome separation", 0.001, 0.901, -5.814, 1.771, -3.0482, 0.902, 
0.012), 

c("GO:0052695", "cellular glucuronidation", 0.000, 6.070, -2.020, 1.398, -6.7645, 
0.667, 0.023), 

c("GO:0042501", "serine phosphorylation of STAT protein", 0.001, 4.269, 4.220, 
1.944, -3.5935, 0.760, 0.025), 

c("GO:0016101", "diterpenoid metabolic process", 0.005, -4.590, -4.132, 2.772, -3.5346, 
0.763, 0.028), 

c("GO:0090313", "regulation of protein targeting to membrane", 0.000, 1.015, 6.202, 
1.230, -3.5935, 0.822, 0.133), 

c("GO:0010225", "response to UV-C", 0.001, 6.233, 3.496, 2.121, -3.1409, 0.864, 
0.171), 

c("GO:0006063", "uronic acid metabolic process", 0.025, 6.023, -2.786, 3.461, 
-5.4473, 0.697, 0.408), 

c("GO:0006069", "ethanol oxidation", 0.015, 5.585, -3.328, 3.222, -3.1555, 0.762, 
0.427), 

c("GO:0006720", "isoprenoid metabolic process", 0.401, -3.931, -4.897, | 4.660, -3.1707, 
0.775, 0.481), 

c("GO:0021819", "layer formation in cerebral cortex", 0.000, -4.381, 4.333, 1.740, 
-3.5935, 0.845, 0.559), 

c("GO:0001523", "retinoid metabolic process", 0.003, -4.238, -4.361, 2.480, -3.6819, 
0.741, 0.595), 

c("GO:0090314", "positive regulation of protein targeting to membrane", 0.000, 0.506, 
6.348, 0.301, -3.5935, 0.827, 0.598), 

c("GO:0052697", "xenobiotic glucuronidation", 0.000, 5.854, -0.744, 1.114, -6.9626, 
0.570, 0.617)); 

8 以 下 都 是 数据 格式 的 转换 。 

one.data <- data.frame(revigo.data); # 矩阵 格式 转换 为 数据 框 格式 。 

names(one.data) <- revigo.names; # 改变 各 列 名 称 。 

# 只 保留 x、y 坐标 都 不 为 aull， 即 有 数值 的 行 。 

one.data <- one.data [(one.data$plot X != "null" & one.data$plot Y != "null"), ]; 

one.data$plot X <- as.numeric( as.character(one.data$plot X)); 

# factor 类 型 转 字 符 ， 再 转 数字 。 

one.data$plot Y <- as.numeric( as.character(one.data$plot Y) );# 同上 。 
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one.data$plot size <- as.numeric( as.character(one.data$plot size) );# 同上 。 
one.data$loglO p value <- as.numeric( as.character(one.data$loglO p. value) ); 4 同上 。 
one.data$frequency <- as.numeric( as.character(one.dataS$frequency) ); & 同上 。 
one.dataSuniqueness <- as.numeric( as.character(one.dataSuniqueness) ); # 同上 。 


one.data$dispensability «- as.numeric( as.character(one.data$dispensability) );# 同上 。 


# 以 下 使 用 ggplot 绘图 。 

pl <- ggplot( data = one.data ); — # 建立 基本 绘图 对 象 ,将 绘图 所 需 数据 传递 给 该 对 象 。 

pl <- pl + geom point( aes( plot X, plot Y, colour 2loglO p value, size = plot size), alpha 
-1(0.6))--scale area(); # 确定 X 轴 、Y 轴 、 颜 色 、 大 小 和 透明 度 的 映射 规则 。 

pl <- pl + scale colour gradientn (colours = c("blue", "green", "yellow", "red"), limits — 
c( min(one.data$loglO p value), 0); # 确定 颜色 过 度 的 标 度 控制 。 

pl <- pl + geom point( aes(plot X, plot Y, size = plot size), shape = 21, fill = "transparent", 
colour - I (alpha ("black", 0.6)) + scale area(); # 添加 点 图 对 象 ， 并 设置 颜色 。 

pl <- pl + scale_size( range-c(5, 30) + theme bw(); # 设置 点 的 大 小 标 度 。 

ex <- one.data [ one.data$dispensability < 0.15, ]; # 数据 取 子 集 ( 只 要 最 后 一 列 小 于 
0.15 的 )。 

pl <- pl + geom text( data = ex, aes(plot X, plot Y, label = description), colour = 
I(alpha("black", 0.85), size — 3 ); # 添加 文字 对 象 并 设置 颜色 和 大 小 。 

pl <- pl + labs (y = "semantic space x", x = "semantic space y"); — s 添加 X 轴 和 立轴 说 明 。 

pl <- pl + opts(legend.key = theme blank() ; # 添加 图 例 说 明 。 

# 以 下 是 设置 X 轴 和 YY 轴 的 刻度 限 。 

one.x range = max(one.data$plot X)— min(one.data$plot X); 

one.y range = max(one.data$plot Y)— min(one.data$plot Y); 

pl < -p1 *xlim(min(one.data$plot X)— one.x range / 10,max(one.data$plot X) + one.x range 
/ 10); 

pl«-pl + ylim(min(one.data$plot Y)— one.y range / 10,max(one.data$plot Y) + one.y. range 
/ 10); 

pl;# 执行 绘图 指令 。 

注意 : 数据 导入 方法 是 逐个 向 量 添 加 ， 只 能 用 于 输入 很 少量 的 数据 ， 处 理 大 量 数据 的 
输入 需要 调用 函数 读 取 文件 〈 见 第 七 章 ) ; 在 ggplot 绘图 过 程 中 ， 会 出 现 蓝 色 警告 信息 ， 
这 是 由 于 ggplot 版 本 升级 导致 ， 不 影响 最 终 画 图 结果 ， 所 以 读者 不 必 理 会 。 


1.5.5 .小 结 


通过 本 章 的 几 个 例子 ， 我 们 可 以 初步 了 解 R 的 编程 思维 ， 并 且 突 出 了 三 个 特点 : 
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a) 从 数据 获取 到 处 理 分 析 ， 再 到 显示 输出 无 缝 连接， 快捷 高 效 ; 
(2) 很 方便 地 与 其 他 软件 或 者 工具 接口 〈 见 例 1-4); 
(3) 熟练 掌握 各 种 数据 格式 及 其 转换 很 重要 ， 这 部 分 请 参看 第 七 章 。 
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生物 信息 学 是 利用 应 用 数学 、 信 息 学 、 统 计 学 和 计算 机 科学 等 方法 研究 生物 学 问题 的 
学 科 ， 其 研究 内 容 非常 广泛 。 从 基本 的 序列 分 析 、 分 子 进化 和 比较 基因 组 学 ， 到 和 蛋白质 结 
构 比 对 和 预测 , 再 到 计算 机 辅助 药物 设计 等 ,R 语言 都 能 发 挥 其 强大 的 数据 处 理 和 分 析 功 能 。 
生物 信息 学 已 经 成 为 了 R 语言 的 一 个 非常 重要 的 应 用 领域 ， R 语言 近年 来 的 迅猛 发 展 很 大 
程度 上 得 益 于 生物 信息 学 的 推动 。 以 下 一 代 测 序 为 核心 的 基因 组 学 的 爆发 对 生物 信息 数据 
的 处 理 和 分 析 提 出 了 更 高 的 要 求 ， 这 大 大 推动 了 R 和 Bioconductor 的 发 展 。 

为 了 用 少 而 精 的 内 容 让 读者 迅速 掌握 用 R 和 Bioconductor 处 理 生 物 信 息 数 据 的 思维 和 
基本 技能 ， 本 书 自 第 三 章 开 始 的 项 目 和 代码 都 集中 在 序列 分 析 和 基因 表达 分 析 两 个 非常 基 
础 和 典型 的 生物 信息 学 应 用 领域 。 在 介绍 这 些 项 目 和 代码 之 前 ， 我 们 在 本 章 简 单 介绍 一 下 
所 需 的 生物 信息 学 基础 知识 ， 为 后 面 学 习 R 和 Bioconductor 打下 基础 。 

本 章 2.1 介绍 了 生物 学 的 核心 概念 中 心 法 则 , 生物 信息 的 数据 分 析 是 基于 这 个 核心 
概念 展开 的 ; 2.2 在 详细 讲解 了 测序 技术 ， 特 别 是 下 一 代 测 序 的 基础 上 ， 介 绍 了 序列 分 析 的 
主要 内 容 2.3 则 是 介绍 了 基因 表达 分 析 ; 2.4 对 生物 信息 学 的 整体 研究 思路 进行 了 小 结 。 
由 于 本 章 的 基本 概念 大 部 分 来 自己 发 行 的 教科 书 或 专业 参考 书 ， 限 于 篇 幅 不 再 一 一 列举 ， 
重点 参考 的 几 本 书 有 东南 大 学 孙 啸 等 编著 的 《生物 信息 学 基础 从 暨南 大 学 许 忠 能 编著 的 《 生 
物 信息 学 》 和 浙江 大 学 樊 龙 江 编 著 的 《生物 信息 学 札记 》。 对 生物 信息 学 有 兴趣 的 读者 ， 可 
以 阅读 上 述 参考 书 进 一 步 学 习 。 





2.1 中 心 法 则 一 一 生物 信息 流 


2.1.1 生物 大 分 子 


生物 大 分 子 是 指 作为 生物 体内 主要 活性 成 分 的 各 种 分 子 量 达 到 上 万 或 更 大 的 有 机 分 
子 ， 主 要 包括 核酸 与 蛋白 质 ， 另 外 还 有 多 糖 、 脂 类 和 它们 相互 结合 的 产物 。 生 物 大 分 子 是 
生物 单 分 子 以 及 其 他 有 机 物 经 过 聚合 而 成 的 ， 如 和 蛋白质 的 组 成 单位 是 氨基 酸 ， 核 酸 的 组 成 
单位 是 核 苷 酸 。 从 化 学 反应 角度 来 看 ， 和 蛋白 质 是 由 a-L- 氨 基 酸 脱水 缩合 而 成 的 ， 核 酸 是 由 
味 叭 和 喀 啶 类 核 音 酸 脱水 缩合 而 成 。 生 物 大 分 子 是 生物 体 的 重要 组 成 成 分 ， 不 但 分 子 量 大 ， 
其 结构 和 功能 也 比较 复杂 。 生 物 信息 学 研究 主要 围绕 脱氧 核糖 核酸 (Deoxyribonucleic acid, 
DNA)、 核 糖 核酸 (Ribonucleic acid, RNA) 和 蛋白质 (Protein) 三 类 生物 大 分 子 展 开 。 
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(1) DNA 


DNA 是 脱氧 核糖 核 苷 酸 ， 通 过 3 , 5 -磷酸 二 酯 键 彼此 连接 起 来 的 多 聚 体 ,一般 存在 于 
细胞 核 、 叶 绿 体 和 线粒体 内 ， 负 责 生 物体 遗传 信息 的 储存 。 脱 氧 核糖 核 昔 酸 由 三 部 分 组 成 ; 
含 氮 碱 基 、 五 碳 糖 〈 脱 氧 核糖 ) 和 磷酸 基 团 。 含 氮 碱 基 又 可 分 为 四 类 : RUM (Adenine， 
缩写 为 AO. 胸腺 喀 啶 (Thymine, 缩写 为 T)、 胞 喀 啶 (Cytosine, 缩写 为 C) 和 鸟 味 叭 (Guanine， 
缩写 为 G)。A、T、C 和 G 不 但 表示 对 应 的 碱 基 ， 还 可 以 表示 对 应 的 核 苷 酸 ， 因 此 DNA 的 
一 级 结构 〈 核 苷 酸 的 排列 次 序 ) 可 以 表示 为 一 条 由 A、T、C 和 G 组 成 的 序列 。DNA 的 二 
级 结构 是 指 两 条 长 度 相 同 、 方 向 相反 的 多 聚 脱氧 核糖 核 苷 酸 链 ， 根 据 碱 基 互 补 配 对 原则 
CA-T ，C=G) 平行 围绕 同一 “想象 中 ”的 中 心 轴 形 成 的 双 螺 旋 结构 。DNA 在 二 级 结构 的 
基础 上 ， 通 过 进一步 卷曲 和 折 登 ， 形 成 超 螺旋 的 三 级 结构 〈 图 2-1)。 在 真 核 生 物 中 ，DNA 
与 组 蛋白 结合 形成 核 小 体 结构 ， 核 小 体 是 染色 质 的 基本 结构 单位 ， 它 可 以 进一步 卷曲 ， 再 
由 H1 组 蛋白 在 内 侧 相互 接触 ， 形 成 直径 为 30nm 的 螺旋 简 (Solenoid) 结构 ， 组 成 染色 质 
纤维 。 在 形成 染色 单 体 时 ， 螺 旋 简 再 进一步 卷曲 和 折 生 ， 形 成 纤维 状 及 实 状 结构 ， 最 后 形 
成 棒状 的 染色 体 。 多 个 层次 的 卷曲 和 折 私 使 长 度 近 lm 的 DNA 双 螺 旋 ， 压 缩 了 8000 多 倍 ， 
成 功 地 容纳 在 直径 仅 数 微米 的 细胞 核 中 。 
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图 2-1 DNA 分 子 的 多 级 结构 (此 图 片 来 自 互联 网 》 


(2) RNA 


RNA 5 DNA 同属 核酸 , KIEF RNA 单 体 是 核糖 核 苷 酸 ， 由 碱 基 、 核 糖 和 磷酸 构成 。 
RNA 的 碱 基 主要 有 4 种 ， 即 A、U (Uracil, RIRE) CHG, HF, U 取代 了 DNA 中 的 
T 而 成 为 RNA 的 特征 碱 基 。RNA 一 般 为 单 链 长 分 子 ， 不 形成 双 螺旋 结构 ， 但 是 很 多 RNA 
也 需要 通过 碱 基 配 对 原则 形成 一 定 的 二 级 结构 乃至 三 级 结构 来 行使 生物 学 功能 。RNA 的 碱 
基 配 对 规则 和 DNA 基本 相同 ,但 除了 A-U, G-C 配对 外 ，G-U 也 可 以 配对 。RNA 一 般 存 
在 于 细胞 质 和 细胞 核 内 ， 主 要 负责 生物 遗传 信息 的 传递 ， 后 来 还 发 现 了 一 些 RNA 具有 酶 的 
活性 以 及 参与 基因 表达 调控 ， 而 且 对 一 部 分 病毒 而 言 ， RNA 是 其 唯一 的 遗传 物质 。RNA 根 
据 结 构 功能 的 不 同 ， 主 要 分 为 三 类 , BI tRNA (转运 RNA)、rRNA (核糖 体 RNA) 和 mRNA 
〈 信 使 RNA). mRNA 是 DNA 转录 的 产物 , 又 是 合成 蛋白 质 的 模板 (图 2-2); tRNA 是 mRNA 
上 了 碱 基 序列 〈 即 遗传 密码 子 ) 的 识别 者 和 氨基酸 的 转运 者 ; rRNA 是 组 成 核糖 体 的 组 分 ， 而 
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核糖 体 是 蛋白 质 合 成 的 场所 。 
(3) 蛋白 质 


蛋白 质 是 由 氨基 酸 分子 呈 线性 排列 所 形成 ， 相 邻 氨 基 酸 残 基 的 羧基 和 氨基 通过 肽 键 连 
接 在 一 起 。 目 前 ， 在 绝 大 多 数 已 鉴定 的 天 然 蛋 白质 中 发 现 的 氨基 酸 有 20 种 ， 它 们 是 甘氨酸 
(CGlycine， 缩 写 为 G)、 丙 氨 酸 (Alanine, WSA A) WAR (Valine, 缩写 为 V)、 亮 氨 酸 
(Leucine， 缩 写 为 L) FAAR 〈Isoleucine， 缩 写 为 D, ZAAR (Phenylalanine， 缩 写 
A FO. BAR (Proline， 缩 写 为 H)、 色 氨 酸 CIryptophane, W5 WO. AR (Serine, 
缩写 为 SO. WAR 〈Tyrosine， 缩 写 为 Y)、 半 胱 氨 酸 〈Cysteine， 缩 写 为 CO. FRAR 
(Methionine， 缩 写 为 M)、 天 冬 酰胺 (Asparagine, 4H 552g NO. 4 4XBkH 〈Glutamine， 缩 
写 为 Q0. 3E CThreonine, 缩写 为 T)、 天 冬 氨 酸 (Aspartic acid, 缩写 为 D)、 谷 氨 酸 (Glutamic 
acid, 缩写 为 E)、 赖 氨 酸 (Lysine, 缩写 为 K) FAR CArgnine, 缩写 为 RORIZH SR CHlstidine, 
缩写 为 H)。 大 多 数 的 蛋白 质 都 折 肢 为 一 个 特定 的 三 维 结构 ， 生 物化 学 家 常常 用 以 下 四 个 级 
别 来 表示 蛋白质 的 结构 (图 2-2): 

。 一 级 结构 : 组 成 蛋白 质 多 肽 链 的 氨基 酸 排列 次 序 。 

。 二 级 结构 : 依靠 不 同 氨基 酸 之 间 的 C=O 和 N-H 基 团 间 的 氢 键 形成 的 稳定 结构 ,主要 
为 a REM B rS 

。 三 级 结构 : 通过 多 个 二 级 结构 元 素 在 三 维 空间 的 排列 所 形成 的 一 个 蛋白 质 分 子 的 三 
维 结构 ， 是 单个 蛋白 质 分 子 的 整体 形状 。 和 蛋白 质 的 三 级 结构 大 都 有 一 个 疏水 核心 来 稳定 结 
构 ， 同 时 具有 稳定 作用 的 还 有 离子 键 、 氢 键 和 二 硫 键 等 。 常 常 可 以 用 “ 折 堆 ”一 词 来 表示 
“三 级 结构 ”。 

。 四 级 结构 : 用 于 描述 由 不 同 多 肽 链 《〈 亚 基 ) 间 相 互 作用 形成 具有 功能 的 蛋白 质 复 合 
物 分 子 的 形态 。 
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图 2-2 蛋白质 分 子 的 多 级 结构 〈 此 图 片 来 自 互联 网 ) 


蛋白 质 是 生命 活动 的 执行 单位 ， 参 与 了 生命 活动 的 每 一 个 进程 。 酶 是 最 常见 的 一 类 和 蛋 
白质 ， 它 们 催化 生物 化 学 反应 ， 尤 其 对 于 生物 体 的 代谢 至 关 重 要 。 除 了 酶 之 外 ， 还 有 许多 
结构 性 或 机 械 性 蛋白 质 ， 如 肌肉 中 的 肌 动 蛋白 和 肌 球 蛋白 以 及 细胞 骨架 中 的 微 管 蛋 白 〈 参 
与 形成 细胞 内 的 支撑 网 络 以 维持 细胞 外 形 )。 另 外 一 些 蛋 白质 则 参与 细胞 信号 传导 、 免 疫 反 
应 、 细 胞 黏附 和 细胞 周期 调控 等 。 
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2.1.2 中心 法 则 


在 三 大 分 子 中 ，DNA 是 遗传 信息 的 储存 者 ， 它 通过 自主 复制 得 以 延续 ， 通 过 转录 生 
成 信使 RNA， 进 而 翻译 成 蛋白 质 来 实现 生命 活动 ， 这 就 是 生物 学 中 的 中 心 法 则 〈Central 
dogma). 1957 年 弗朗西斯 . 克 里 克 最 初 提出 的 中 心 法 则 是 : DNA 一 RNA 一 蛋白 质 。 它 说 
明 遗 传 信息 在 不 同 的 大 分 子 之 间 的 传递 都 是 单 向 的 ,不可逆 的 , 只 能 从 DNA 到 RNA C 
K), A RNA 到 有 蛋白质 〈 翻 译 )。 而 后 ， 这 两 种 形式 的 信息 传递 方式 在 所 有 生物 的 细胞 
中 都 得 到 了 证 实 。 

1970 年 霍华德 .马丁 . 特 明 和 戴 维 .巴尔 的 摩 在 一 些 RNA 致癌 病毒 中 发 现 了 它们 在 宿主 
细胞 中 的 复制 过 程 是 先 以 病毒 的 RNA 分 子 为 模板 合成 DNA 分 子 ， 再 以 DNA 分 子 为 模板 
合成 新 的 病毒 RNA。 前 一 个 步骤 后 来 被 称 为 反 转 录 ， 是 最 初 的 中 心 法 则 提出 后 的 补充 。 因 
此 克 里 克 在 1970 年 重申 了 中 心 法 则 的 重要 性 ， 提 出 了 更 为 完整 的 图 解 形式 (图 2-3) 。 中 心 
法 则 是 现代 生物 学 中 最 重要 最 基本 的 规律 之 一 ， 在 探索 生命 现象 的 本 质 及 普遍 规律 方面 起 
到 了 巨大 的 作用 ， 是 现代 生物 学 的 理论 基石 ， 生 物 信息 学 的 研究 基本 上 围绕 中 心 法 则 展开 。 
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图 2-3 "中心 法 则 (此 图 片 来 自 互联 网 ) 
2..3 基因 组 、 转 录 组 和 蛋白 质 组 


(D 基因 


基因 是 含有 特定 遗传 信息 的 DNA 片段 ， 是 遗传 物质 的 最 小 功能 单位 。 一 个 基因 不 仅 包 
含 编码 蛋白 质 肽 链 或 RNA 的 核酸 序列 ， 还 包含 为 保证 转录 所 必需 的 调控 序列 、5” 端 非 翻 
译 序 列 、 内 含 子 以 及 3” 端 非 翻 译 序列 等 所 有 的 DNA 序列 (图 2-4)。 基 因 分 为 三 类 : 第 一 
类 编码 蛋白 质 ， 具 有 转录 和 翻译 功能 ， 也 就 是 后 面 提 到 的 编码 序列 ， 第 二 类 是 只 有 转录 功 
能 而 没有 翻译 功能 的 基因 ， 例 如 tRNA 基因 和 rRNA 基因; 第 三 类 是 不 转录 的 基因 ， 它 对 基 
因 表 达 起 调节 控制 作用 ， 例 如 启动 子 和 操纵 子 。 
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(1) 原核 基因 的 结构 
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图 2-4 ”基因 的 结构 〈 此 图 片 来 自 互 联网 ) 
(2) 基因 组 


基因 组 ,一 般 的 定义 是 单 倍 体 细胞 中 的 全 部 基因 (曾经 认为 只 有 编码 序列 )。 后 来 ， 大 
量 基 因 组 测序 的 结果 发 现 编码 序列 (Coding Sequence，CDS)， 又 称 编码 区 〈Coding region) 
只 占 整 个 基因 组 序列 的 很 小 一 部 分 。 因 此 ， 基 因 组 应 该 指 单 倍 体 细胞 中 包括 编码 序列 和 非 
编码 序列 在 内 的 全 部 DNA。 更 完备 的 定义 是 : 核 基 因 组 是 一 个 单 倍 体 细胞 核 内 的 全 部 
DNA, 线粒体 基因 组 是 一 个 线粒体 所 包含 的 全 部 DNA, 叶绿体 基因 组 是 一 个 叶绿体 所 包含 
的 全 部 DNA。 


(3) 转录 组 


转录 组 ， 广 义 上 指 在 某 一 生理 或 实验 条 件 下 ， 由 单个 细胞 、 组 织 或 个 体 等 所 产生 的 所 
有 转录 产物 的 集合 ， 包 括 mRNA, rRNA, tRNA 及 非 编 码 RNA; 狭义 上 是 指 所 有 mRNA 
的 集合 。 pe 如 果 不 特别 强调 ， 一 般 转 录 组 就 是 指 mRNA。 转 录 组 代表 了 样本 
《细胞 、 组 织 等 ) 整体 的 基因 表达 水 平 ， 因 此 也 被 称 为 “表达 谱 ”， 通 常 采用 基因 芯片 和 
RNA-seq (JL 2.2.2) 技术 来 研究 。 


(4) 蛋白 质 组 


蛋白 质 组 是 指 一 个 基因 组 所 编码 的 全 部 蛋白 质 。 蛋 白质 组 学 在 大 规模 水 平 上 研究 蛋白 
质 的 特征 ， 包 括 所 有 蛋白 质 的 表达 水 平 、 翻 译 后 的 修饰 、 蛋 白质 与 蛋白 质 相互 作用 等 ， 由 
此 从 蛋白 质 水 平 获得 关于 疾病 发 生 、 细 胞 代谢 等 生命 过 程 的 整体 而 全 面 的 认识 。 蛋 白质 组 
是 真正 的 基因 表达 谱 ， 其 最 常用 的 研究 手段 是 质谱 。 
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2.1.4 非 编 码 RNA 和 microRNA 


转录 组 中 有 一 些 RNA 不 翻译 成 蛋白 质 ， 而 是 在 RNA 水 平 上 行使 各 自 的 生物 学 功能 ， 
被 称 作 非 编码 RNA (non-coding RNA，ncRNA)。 非 编码 RNA 从 长 度 上 来 划分 可 以 分 为 三 
类 :小 于 50nt 的 small RNA, 包括 miRNA、siRNA 和 piRNA 等 ; 50 nt 到 500 nt, 包括 rRNA. 
tRNA, snRNA 和 snoRNA 等 ， 大 于 500 nt， 包 括 长 的 mRNA-like 的 非 编码 RNA， 长 的 不 
带 polyA 尾巴 的 非 编 码 RNA 等 。 

microRNAs (miRNAs) 是 在 真 核 生 物 中 发 现 的 一 类 内 源 性 的 具有 调控 功能 的 非 编码 
RNA， 其 大 小 长 约 20-25 ZER. RAR miRNAs 是 由 较 长 的 初级 转录 物 经 过 一 系列 核 
酸 酶 的 前 切 加 工 而 产生 的 ， 随 后 组 装 进 RNA 诱导 的 沉默 复合 体 ， 通 过 碱 基 互补 配对 的 方式 
WIJE mRNA， 并 根据 互补 程度 的 不 同 指导 沉默 复合 体 降 解 靶 mRNA RADARE mRNA 
的 翻译 。 最 近 的 研究 表明 miRNA 参与 调节 各 种 各 样 的 生命 活动 ,包括 发 育 、 病 毒 防御 、 造 
血 、 器 官 形 成 、 细 胞 增殖 和 凋 亡 、 脂 肪 代谢 等 。 


2.2 测序 与 序列 分 析 


2.2. DNA 测序 技术 


DNA 测序 (DNA sequencing)， 简 单 来 说 就 是 确定 四 种 核 苷 酸 残 基 (A、T、C 和 G) 
的 排列 顺序 。DNA 测序 技术 是 20 世纪 生物 学 研究 中 最 重要 的 发 明之 一 , 它 的 出 现 极 大 地 推 
动 了 生物 学 的 发 展 ， 使 得 研究 者 们 能 从 基因 乃至 基因 组 水 平 更 精细 地 解析 生命 现象 。 测 序 
技术 最 早 可 追溯 到 1954 年 ，Whitfeld 等 用 化 学 降解 的 方法 测定 多 聚 核糖 核 疹 酸 序列 。1977 
年 ，Sanger 等 发 明 的 双 脱 氧 链 终止 法 (Sanger 测序 法 ) 和 Gilbert 等 发 明 的 化 学 降解 法 的 成 
功 实 现 标志 着 第 一 代 DNA 测序 技术 的 诞生 。 后 来 ， 由 于 Sanger 测序 法 既 简 便 又 快速 ， 实 
质 上 成 为 了 第 一 代 测 序 方法 的 代名词 ， 并 成 为 了 人 类 基因 组 计划 的 主要 测序 方法 。 

1985 年 Leroy Hood 实验 室 改进 了 Sanger 测序 法 ,采用 四 种 不 同 颜 色 的 荧光 染料 来 标记 
四 种 双 脱 氧 核 苷 酸 终止 子 ， 代 替 了 之 前 的 同位 素 标 记 引 物 方法 ， 使 得 一 个 反应 管 中 可 同时 
进行 四 个 末端 终止 反应 ， 然 后 在 用 聚 丙烯 酰 胺 凝 胶 分 离 终止 反应 的 产物 后 ， 采 用 计算 机 欧 
光 检 测 系 统 读 取 四 种 核 音 酸 终止 子 ， 极 大 提高 了 测序 速度 。 次 年 ， 利 用 该 策略 ， 美 国 应 用 
生物 系统 CApplied Biosystems, ABD 公司 ， 后 与 Invitrogen 公司 合并 为 Life Technologies, 
推出 第 一 款 半自动 DNA 测序 仪 ABI 370。 随 后 的 测序 仪 采用 毛细 管 电泳 替代 了 平板 凝 胶 电 
泳 以 取消 手工 上 样 , 加快 了 分 析 的 速度 并 实现 自动 化 ,并 提高 了 通 量 。 这 种 改进 的 测序 仪 在 
人 类 基因 组 计划 中 发 挥 了 重要 作用 。 第 一 代 测 序 技术 的 测序 长 度 长 〈 可 超过 1kb) 与 低 误差 
率 等 优势 是 后 来 的 第 二 代 测 序 技术 所 无 法 比拟 的 ， 但 随后 几 十 年 的 改进 与 完善 ， 都 无 法 摆 
脱 其 对 电泳 技术 的 依赖 ， 致 使 它 难以 在 测序 成 本 、 速 度 与 通 量 上 有 质 的 飞跃 。 

为 了 提高 测序 的 效率 ， 进 一 步 降 低 成 本 ， 人 们 又 开发 了 第 二 代 测 序 技术 ， 也 就 是 通常 
所 称 的 下 一 代 测 序 (Next Generation Sequencing，NGS)， 也 称 作 深 度 测序 或 高 通 量 测序 。 
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第 二 代 测 序 的 核心 概念 就 是 高 通 量 ， 相 对 于 第 一 代 测 序 的 96 道 毛 细 管 测序 ， 二 代 测 序 一 次 
实验 可 以 读 取 数 以 百 万 计 的 序列 。 但 是 第 二 代 测 序 技 术 与 第 一 代 技术 相 比 ， 测 序 片 段 短 ， 
误差 较 高 。 第 二 代 测 序 技术 读 取 长 度 根据 平台 不 同 从 25bp 到 450bp 不 等 ， 当 前 主流 产品 的 
误差 率 都 在 0.1% 以 上 。 主 流 的 测序 仪 有 Roche 公司 的 454，Tllumina 公司 的 Illumina/Solexa 
和 ABI 公司 的 SOLID 等 。 第 二 代 测 序 技术 诞生 于 20 世纪 90 年 代 末 ，2005 年 前 后 商业 化 ， 
是 当前 主要 的 测序 技术 。 

在 第 二 代 测 序 技术 中 ，454 测序 仪 测序 片段 最 长 ， 适 于 未 知 基因 组 从 头 测 序 ， 搭 建 主 体 
结构 ， 但 是 它 在 判断 连续 单 碱 基 重 复 区 时 准确 度 不 高 ; 与 454 相 比 ，Illumina/Solexa 测序 仪 
通 量 高 、 片 段 短 、 成 本 低 ， 适 于 转录 组 、 小 基因 组 (例如 微生物 ) 的 从 头 测序 和 大 基因 组 
的 重 测序 等 多 个 应 用 领域 ，SOLIiD 测序 仪 基于 双 碱 基 编 码 系统 ， 就 有 较 强 的 纠 错 能 力 以 及 
较 高 的 测序 通 量 ， 适 于 ChIP-seq、small RNA-seq 等 应 用 领域 ( 见 2.2.2)， 但 是 由 于 测序 片 
段 更 短 ， 限 制 了 其 在 基因 组 拼接 等 方面 的 广泛 应 用 。 三 种 测序 仪 中 ，Illumina 测序 仪 因 其 较 
高 的 性 价 比 和 较为 广泛 的 应 用 范围 ， 占 据 了 大 部 分 市 场 份额 。 

第 三 代 测 序 的 核心 概念 是 单 分 子 ， 它 通过 直接 监控 核 痛 酸 在 DNA. 或 RNA 单 分 子 链 上 
的 插入 来 测序 ,不 需要 进行 PCR 扩 增 。 这 样 不 仅 避 免 了 PCR 扩 增 带 来 的 测序 误差 和 扩 增 偏 
倚 (Bias)， 还 可 以 进一步 降低 成 本 。 而 且 第 三 代 测序 在 保持 高 通 量 的 基础 上 ， 进 一 步 增 加 
了 测序 长 度 ， 可 以 说 是 测序 的 终极 目标 。 主 流 的 测序 仪 有 Helicos Biosciences 公司 的 
HeliScope 系统 、 Pacific Biosciences 公司 的 PacBio RS 系统 .Oxford Nanopore 公司 的 GridION 
系统 等 。 当 前 ， 测 序 市 场 中 实际 应 用 的 产品 只 有 PacBio RS 系统 。 

除了 不 需要 扩 增 和 测序 长 度 大 大 增加 之 外 ， 第 三 代 测 序 技术 还 具有 第 二 代 测 序 所 不 具 
备 的 两 个 优势 : 一 是 可 以 直接 测 RNA 序列 ， 大 大 降低 体外 逆转 录 产 生 的 系统 误差 ， 以 往 的 
一 代 、 二 代 测 序 都 是 通过 cDNA 而 间接 测量 RNA 序列 ， 二 是 根据 DNA 聚合 酶 复制 A、T、 
C 和 G 停顿 的 时 间 不 同 , 直接 测量 DNA. 序列 的 甲 基 化 。 当 前 第 三 代 测 序 普遍 存在 的 问题 是 
成 本 高 ， 测 序 误差 率 高 ， 因 此 还 没有 被 广泛 应 用 。 但 是 ， 第 三 代 测 序 技术 发 展 较 快 ， 通 过 
不 断 技术 改进 ， 已 经 达到 了 可 以 应 用 的 水 平 ，PacBio RS 系统 开始 在 测序 市 场 上 慢 慢 发 展 起 
来 。 评 价 一 个 测序 系统 的 优 劳 ， 往 往 看 重 测序 长 度 、 误 差 率 、 通 量 和 成 本 四 个 主要 因素 。 表 
2-1 是 第 一 、 二 、 三 代 测 序 技术 的 总 体 比较 ， 截 止 到 本 书写 作 完 成 ， 大 部 分 的 第 二 、 三 代 测 
序 技术 又 有 了 新 的 发 展 ， 因 此 下 表 各 类 指标 的 数据 仅 反映 同一 时 期 各 种 测序 系统 之 间 的 相对 
关系 。 


表 2-1 三 代 测序 技术 比较 


公司 主要 产品 ”测序 方法 ”最 长 读 长 主要 优点 局 限 性 

ABI Gene Sanger 毛 >1000 读 长 长 ; 准确 度 高 ; E AER 样品 制备 成 本 高 ; 
Analyzer 细 管 电 复 序 列 和 多 聚 序 列 难以 实现 并 行 
3730 泳 准确 率 高 

Roche/Asd GS FLX 边 合 成 700 二 代 测 序 仪 中 读 长 最 ”样品 制备 难 ; 重复 序列 和 多 
Titanium 边 测序 长 ; 高 通 量 ， 可 达 聚 序列 错误 高 ; 冲洗 试剂 
XL+ 700M 易 引 起 累计 错误 ; 仪器 费 

Illumina ^ HiSeq2000 边 合成 150 高 通 量 〈 可 达 600G) —— 读 长 短 ，3? 端 测序 质量 低 


边 测序 
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( 续 表 ) 
公司 主要 产品 ”测序 方法 ”最 长 读 长 主要 优点 局 限 性 
ABI SOLID 连接 测 75 高 通 量 测序 运行 时 间 长 ; 读 长 短 ; 
5500 序 法 后 续 拼 接 和 数据 分 析 困 
难 ; 仪器 较 昂 贵 
Heliscope ”HeliScope 单 分 子 合 55 可 直接 测 RNA MFP BKA: 仪器 昂贵 ; 测序 
Biosciences 成 测序 基 化 的 DNA 序列 成 本 高 
Pacific PacBio 单 分 子 合 。 >1000 平均 读 长 长 ; 较 一 代 ”不 能 高 效 地 将 DNA 聚合 
Biosciences RS II 成 测序 测序 速度 快 ， 无 需 酶 加 到 测序 阵列 中 ; Vx 
扩 增 差 率 高 ， 成 本 高 
Oxford GridION 纳米 孔 电 理论 上 可 实现 高 读 长 ; 无 需 切断 的 核 苷 酸 可 能 被 读 错 
Nanopore 2000 信 号 测 全 长 荧光 标记 ， 电 信和 号 方向 ; 难于 制作 出 多 重 
序 读 取 平行 孔 的 装置 


2.2.2 第 二 代 测 序 技术 的 应 用 领域 


第 二 代 测 序 技术 是 当前 最 主要 的 测序 技术 ， 它 不 仅 带 来 了 测序 领域 的 革命 性 变化 ， 而 
且 与 现 有 手段 结合 开拓 了 很 多 新 的 应 用 领域 ， 如 染色 质 免疫 共 沉 淀 测 序 (ChIP-seq)、 转 录 
组 测序 (RNA-seq) 和 甲 基 化 测序 (Methyl-seq) 等 四。 这 些 新 应 用 领域 产生 的 数据 都 是 海 
量 的 ， 对 这 些 数据 的 处 理 需求 大 大 促进 了 R 和 Bioconductor 的 发 展 。Bioconductor 针对 每 个 
领域 ， 都 有 大 量 的 软件 包 可 以 使 用 ， 其 中 最 典型 的 转录 组 测序 (RNA-seq) 方面 的 内 容 将 在 
后 面 的 章节 详细 介绍 中 。 


(1) 全 基因 组 测序 与 重 测序 


第 二 代 测 序 技术 在 发 展 初期 由 于 读 长 较 短 ， 使 其 在 基因 组 从 头 测序 领域 受到 限制 ( 低 
等 生物 除外 ， 如 细菌 )， 而 更 多 的 应 用 在 基因 组 重 测序 方面 。 基 因 组 重 测序 是 指 对 已 知 基因 
组 序列 的 物种 进行 不 同 个 体 或 亚 型 的 基因 组 测序 ， 一 方面 对 个 体 或 群体 进行 各 种 差异 性 分 
析 或 进化 分 析 ; 男 一 方面 可 以 对 已 测 基因 组 进行 重 注 释 ， 纠 正 或 更 新 已 有 的 注释 信息 ， 发 
现 可 能 遗漏 的 潜在 基因 。 随 着 测序 技术 的 不 断 发 展 ( 例 如 基因 组 测序 的 Mate-pair 技术 )， 
第 二 代 测 序 技术 也 逐渐 应 用 于 高 等 动 植物 的 基因 组 从 头 测序 。 


(2) 转录 组 测序 


转录 组 研究 是 基因 功能 及 结构 研究 的 基础 和 出 发 点 ， 是 全 基因 组 测序 完成 后 首先 要 面 
对 的 问题 。 将 第 二 代 测 序 技术 应 用 于 转录 组 分 析 开 发 出 的 转录 组 测序 (RNA-seq) ER, fÉ 
够 在 全 基因 组 范围 内 检测 基因 表达 情况 ， 为 更 广泛 地 了 解 细胞 的 功能 、 调 节 机 制 及 生化 代 
谢 途 经 提供 线索 。RNA-seq 的 技术 优势 将 在 第 六 章 详细 介绍 。 注 意 ， 这 里 的 转录 组 测序 ， 
只 是 测定 mRNA 序列 (狭义 的 转录 组 )， 不 包括 全 部 转录 产物 (广义 的 转录 组 )。 


(3) 小 RNA 的 测序 


第 二 代 测 序 另 一 个 广泛 应 用 的 领域 就 是 小 RNA (small RNA) 测序 ， 简 称 sSRNA-seq。 
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small RNA 是 一 类 大 小 约 17-25 个 碱 基 的 单 链 小 分 子 RNA， 主 要 包括 miRNA, snoRNA 和 
piRNA 等 ,在 基因 表达 调控 等 方面 具有 重要 功能 ( 见 2.1.4)。 由 于 small RNA 序列 短 、 同 源 
性 高 , 利用 基因 芯片 检测 small RNA 非常 困难 ， 只 有 通过 第 二 代 测 序 技术 才能 克服 这 一 难题 。 


(4) DNA 和 蛋白 质 相 互 作用 


染色 质 免疫 共 沉 淀 技术 (Chromatin immunopre-cipitation, ChIP), 也 称 结合 位 点 分 析 法 ， 
是 全 基因 组 水 平 研究 DNA 与 蛋白 质 相互 作用 的 有 力 工具 和 标准 方法 。 将 ChP 与 下 一 代 高 
通 量 测序 技术 相 结 合 的 ChIP-seq 技术 ， 由 于 具有 成 本 低 、 效 率 高 、 检 测 的 灵敏 度 和 有 覆 盖 度 
高 等 优势 ， 已 经 广泛 应 用 于 以 下 两 个 方面 : 一 方面 是 DNA 序列 上 转录 因子 结合 位 点 
(Binding sites) 的 识别 ， 如 启动 子 、 增 强 子 等 各 种 顺 式 作用 元 件 〈Cis-acting element) 的 识 
别 ; 另 一 方面 主要 应 用 在 表 观 遗传 学 领域 , 包括 研究 基因 组 DNA 甲 基 化 、 组 蛋白 修饰 和 核 
小 体 定位 等 问题 上 。 


(5) DNA 甲 基 化 分 析 中 的 应 用 


DNA 甲 基 化 在 维持 细胞 正常 功能 、 遗 传 印记 和 胚胎 发 育 过 程 中 起 着 极其 重要 的 作用 。 
第 二 代 测 序 可 以 在 基因 组 整体 水 平 高 精度 检测 DNA. 甲 基 化 。 三 种 常见 的 依赖 于 高 通 量 测序 
的 DNA 甲 基 化 分 析 技 术 有 : 甲 基 化 DNA 免疫 共 沉 淀 测序 (Methylated DNA 
immunoprecipitation sequencing，MeDIP-seq)、 甲 基 化 DNA (HA) 结合 域 测 序 (Methylated 
DNA binding domain sequencing, MBD-seq) 和 亚 硫 酸 氨 盐 测 序 (Bisulfite sequencing, 
BS-seq)。 


2.2.3 序列 分 析 


序列 分 析 是 生物 信息 学 最 基本 的 工作 。 当 前 生物 实验 获得 的 最 主要 数据 依然 还 是 DNA、 
RNA 和 和 蛋白质 序 列 ， 它 们 构成 了 生物 信息 学 的 出 发 点 和 最 主要 内 容 。 特 别 是 当前 高 通 量 测 
序 的 迅猛 发 展 使 序列 分 析 的 需求 呈 海 量 倍增 ， 对 序列 分 析 提 出 了 更 多 新 的 要 求 ， 同 时 也 改 
变 了 序列 分 析 的 内 容 和 重点 。 从 高 通 量 数据 处 理 的 需求 出 发 ， 当 前 的 序列 分 析 主要 集中 在 
序列 预 处 理 、 序 列 拼 接 、 短 序列 映射 、 变 异 检测 、 序 列 比 对 、 相 似 性 搜索 、 分 子 进化 分 析 
和 比较 基因 组 学 等 方面 。 


(1) DNA 序列 的 预 处 理 


测序 得 到 的 DNA. 序列 除了 包括 目的 基因 的 短片 段 之 外 ， 还 常常 包括 引物 、 接 头 或 载体 
等 其 他 片段 ， 必 须 通过 计算 机 程序 去 除 这 些 片 段 ， 这 个 过 程 叫做 去 污染 。 除 此 之 外 ， 还 要 
去 除 测序 质量 较 低 的 部 分 ， 这样 得 到 高 质量 的 干净 (Clean) 数据 ， 才 能 用 于 进一步 的 分 析 。 
Bioconductor 的 ShortRead 软件 包 提供 了 有 针对 性 的 函数 ， 用 来 去 除 第 二 代 测 序数 据 中 的 污 
染 和 低 质 量 片段 。 


(2) 序列 拼接 
第 二 代 测 序 会 得 到 大 量 随机 的 短 DNA 片段 , 因此 如 何 正确 拼接 这 些 片段 以 得 到 目的 基 
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因 组 或 转录 组 是 一 个 具有 挑战 性 的 问题 。 由 于 序列 拼接 算法 比较 复杂 ， 且 耗费 的 资源 非常 
可 观 ， 因 此 普遍 需要 用 更 具有 效率 的 编程 语言 (如 CHC 编写 ， 这 里 不 做 过 多 介绍 。 拼 
接 得 到 的 序列 叫做 一 致 性 序列 〈Consensus sequences)， 它 只 是 代表 了 一 条 参考 序列 ， 在 这 
条 序列 的 每 个 位 点 的 核 苷 酸 只 是 出 现 次 数 较 多 的 那 种 ， 出 现 次 数 少 的 核 苷 酸 不 被 反映 出 来 。 


(3) 短 序列 映射 和 变异 检测 


对 已 有 基因 组 或 转录 组 作为 参考 序列 的 重 测序 项 目 中 ， 需 要 将 测序 得 到 的 短 序列 〈 一 
般 不 超过 500 个 bp) 映射 到 参考 序列 ， 这 个 过 程 也 叫 对 齐 〈Alignment)。 这 也 是 一 个 耗费 
资源 的 工作 ， 因 此 不 多 介绍 。 不 过 短 序列 映射 的 后 续 处 理工 作 和 其 他 相应 的 数据 分 析 工 作 
会 大 量 使 用 R 编程 。 特 别 是 ， 根 据 这 些 映射 的 结果 ， 在 全 基因 组 水 平 上 扫描 并 检测 发 现 大 
量 的 基因 序列 变异 ， 并 结合 表 型 分 析 ， 进 而 指导 动 植物 育种 或 人 类 疾病 等 研究 中 。 这 些 变 异 
包括 : 单 核 苷 酸 多 态 性 (single nucleotide polymorphism，SNP)、 拷 贝 数 变异 (Copy Number 
Variation，CNV)、 揪 入 〈Insertion) 和 缺失 (Deletion) 等 变异 类 型 。 


2.2.4 序列 比 对 和 相似 性 搜索 


序列 比 对 又 叫 序列 对 齐 ， 简 单 来 说 就 是 将 两 个 或 多 个 序列 排列 在 一 起 ， 标 明 其 相似 之 
处 ， 进 而 确定 序列 之 间 的 相似 性 。 序 列 比 对 中 ， 对 应 的 相同 或 相似 的 符号 (在 核酸 中 是 核 
苷 酸 残 基 ， 在 蛋白 质 中 是 氨基 酸 残 基 ) 排列 在 同一 列 上 ， 序 列 中 可 以 插入 空位 (图 2-5)。 

序列 比 对 的 理论 基础 是 进化 学 说 ， 如 果 两 个 序列 之 间 具 有 足够 的 相似 性 ， 就 推测 二 者 
可 能 由 共同 的 进化 祖先 ， 经 过 序列 内 残 基 的 替换 、 残 基 或 序列 片段 的 缺失 以 及 序列 重组 等 
遗传 变异 过 程 演化 而 来 。 序 列 相似 和 序列 同 源 是 不 同 的 概念 ， 序 列 之 间 的 相似 程度 是 可 以 
量化 的 参数 ， 而 序列 是 否 同 源 需 要 有 进化 事实 的 验证 。 序 列 比 对 根据 比 对 的 序列 数量 ,分 
为 双重 比 对 和 多 重 比 对 。 双 重 比 对 的 一 个 重要 应 用 是 根据 已 知 基因 的 结构 、 功 能 等 信息 推 
断 其 相似 基因 的 同类 信息 。 


GAAAATTAATGGCTAGTGGAGGTGAAGATGGTACTGTTCGACTATGGTCTCTTG---AAG 


ELE E EHE II dE TFETTIETTIETITILELETILIELILL III | 
GAAAAGTATTGGCAAGTGGGGGAGAAGATGGTACTGTTCGACTATGGTCCCTTGGCTCAA 


图 2-5 ”序列 双重 比 对 实例 


图 2-5 是 一 对 DNA 序列 比 对 的 结果 , 短 横 线 “-” 表 示 空 位 , 竖 线 “|” 表 示 残 基 相 同 ， 
用 相同 残 基 总 量 〈49) 除 以 考虑 空位 后 的 序列 长 度 〈60) 可 以 得 到 两 条 序列 的 相似 度 是 
81.67%。 根 据 算 法 不 同 ， 序 列 比 对 可 以 分 为 全 局 比 对 和 局 部 比 对 ， 前 者 主要 用 以 鉴别 新 序 
列 与 已 有 序列 的 同 源 关 系 ， 而 后 者 主要 用 来 寻找 一 个 基因 或 蛋白 家 族 中 的 保守 序列 片段 。 

在 实际 工作 中 ， 双 重 比 对 最 常见 的 用 途 就 是 用 于 数据 库 相 似 性 搜索 。 具 体 来 说 就 是 将 
查询 序列 (未 注释 的 ) 和 数据 库 中 的 备 选 序 列 〈 已 有 功能 等 注释 信息 ) 做 比 对 ， 根 据 设 定 
的 相似 性 阔 值 ， 从 数据 库 中 存在 的 亿 万 条 序列 中 挑选 出 符合 要 求 的 序列 ， 这 些 序 列 可 以 用 
来 提供 查询 序列 的 一 些 未 知 信息 《如 功能 、 结 构 等 )， 还 可 用 于 多 重 比 对 ， 构 建 进化 树 。 
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多 重 比 对 的 对 象 是 一 组 假定 具有 进化 关系 的 序列 ， 这 组 序列 一 般 可 以 通过 上 面 提 到 的 
数据 库 相 似 性 搜索 得 来 。 根 据 多 重 比 对 的 结果 可 推导 出 这 些 序列 间 的 进化 关系 。 多 重 比 对 
还 经 常用 来 研究 序列 的 保守 性 ， 例 如 蛋白 质 多 重 比 对 可 以 找到 一 些 高 度 保守 的 位 点 ， 这 些 
位 点 可 能 对 蛋白 质 的 结构 和 功能 至 关 重 要 ， 但 并 不 是 所 有 保守 的 残 基 都 一 定 是 对 结构 功能 
起 重要 作用 的 ， 可 能 它们 只 是 由 于 历史 的 原因 被 保留 下 来 ， 而 不 是 由 于 进化 压力 而 保留 下 
来 。 因 此 还 需要 实验 和 其 他 方面 信息 的 支持 ， 才 能 进一步 确定 。 


2.2.5 ”分子 进化 和 系统 发 生 树 


进化 生物 学 (Evolutionary biology) 是 生物 学 最 基本 的 理论 之 一 ， 它 探究 生物 进化 并 产 
生生 物 多 样 性 的 历程 。 长 期 以 来 ,， 为 了 获得 生物 进化 历史 的 框架 ， 人们 常用 比较 生物 学 (如 
生理 学 、 形 态 学 等 ) 方法 辅 以 化 石 证 据 来 构建 系统 发 生 树 (Phylogenetic tree)， 又 称 为 进化 
Bj (Evolutionary tree)。 然 而 ， 由 于 形态 和 生理 性 状 的 进化 式样 极其 复杂 ， 加 上 化 石 资 料 不 
够 完整 ， 因 而 所 构建 的 系统 树 往往 存在 不 少 争 议 ， 难 以 反映 生物 进化 历史 的 全 貌 。 


(1) 分 子 进化 


所 有 生命 的 蓝图 都 是 以 DNA“〈 某 些 病毒 中 为 RNA) 书写 的 ， 因 而 可 以 通过 比较 DNA 
序列 来 研究 它们 的 进化 关系 .20 世纪 中 叶 , 进化 研究 开始 进入 分 子 进 化 (Molecular evolution) 
水 平 ， 这 一 学 科 领 域 被 称 为 分 子 系统 学 (Molecular systematics )。 

分 子 进化 为 解决 系统 与 进化 生物 学 中 的 疑难 问题 提供 了 新 的 方法 论 和 工具 ， 已 对 生物 
分 类 学 的 发 展 发 挥 了 至 关 重 要 的 作用 。 尤 其 到 了 20 世纪 末 ， 基 因 组 测序 计划 的 巨 量 信息 带 
来 了 若干 生物 领域 重大 问题 的 提出 ， 诸 如 遗传 密码 的 起 源 、 基 因 组 结构 的 形成 与 演化 、 进 
化 的 动力 等 ， 使 得 分 子 进化 研究 成 为 生命 科学 中 最 引 人 注 目的 领域 之 一 。 

分 子 进 化 研究 目前 更 多 地 集中 在 分 子 〈 核 酸 或 和 蛋白质 ) 序列 上 ， 但 随 着 越 来 越 多 生物 
基因 组 的 测序 完成 ， 基 因 组 水 平 上 的 研究 会 逐渐 多 起 来 。 


(2) 系统 发 生 树 


进化 树 表 明了 具有 共同 祖先 的 各 物种 间 的 演化 关系 。 所 谓 树 ， 从 数据 结构 角度 来 讲 ， 
实际 上 是 一 个 无 向 非 循 环 图 。 系统 发 生 树 由 一 系列 节点 (Nodes) 和 分 支 (Branches ) 组 成 ; 
每 个 节点 代表 一 个 分 类 单元 (物种 或 序列 )， 节 点 间 的 连 线 代表 节点 之 间 的 进化 关系 。 树 的 
节点 又 分 为 外 部 节点 《Terminal node) 和 内 部 节点 (Internal node): 外 部 节点 代表 实际 观察 
到 的 分 类 单元 ; 内 部 节点 又 称 为 分 支点 ， 它 代表 了 进化 事件 发 生 的 位 置 ， 或 代表 分 类 单元 
进化 历程 中 的 祖先 。 

根据 节点 的 不 同意 义 ， 系 统 树 又 可 以 分 为 物种 树 〈Species tree)、 基 因 树 (图 2-6) 等 ， 
前 者 常常 根据 物种 的 表 型 数据 构建 ， 后 者 才 是 分 子 水 平 的 。 

系统 发 生 树 有 许多 形式 : 可 能 是 有 根 树 (Rooted tree)， 也 可 能 是 无 根 树 (Unrooted tree) 
(图 2-7); 可 能 是 一 般 的 树 ， 也 可 能 是 二 又 树 ;可 能 是 有 权 值 的 树 (或 标 度 树 ，Scaled tree, 
树 中 标明 分 支 的 长 度 )， 也 可 能 是 无 权 值 树 〈 或 非 标 度 树 ，Unscaled tree). 
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图 2-6 ”物种 树 与 基因 树 (此 图 片 来 自 互 联网 ) 


有 根 树 反映 了 树 上 物种 或 基因 的 时 间 顺 序 ， 而 无 根 树 只 反映 分 类 单元 之 间 的 距离 而 不 
涉及 谁 是 谁 的 祖先 问题 。 在 一 棵 有 根 树 中 ， 有 一 个 唯一 的 根 节点 ， 代 表 所 有 其 他 节点 的 共 
同和 祖先， 这样 的 树 能 够 反映 进化 层次 ， 从 根 节点 历经 进化 到 任何 其 他 节点 只 有 唯一 的 路 径 。 
系统 发 生 分 析 中 一 个 重要 的 差别 是 ， 有 的 能 由 系统 发 生 树 推断 出 共同 祖先 和 进化 方向 ， 而 
有 的 却 不 能 。 无 根 树 没有 层次 结构 ， 无 根 树 只 说 明了 节点 之 间 的 关系 ， 没 有 关于 进化 发 生 
方向 的 信息 。 但 是 通过 使 用 外 部 参考 物种 (那些 明确 地 最 早 从 被 研究 物种 中 分 化 出 来 的 物 
种 )， 可 以 在 无 根 树 中 指派 根 节 点 。 例 如 在 研究 人 类 和 大 猩猩 时 ， 可 用 独 狮 作为 外 部 参考 物 
种 ， 树 的 根 节点 可 以 放 在 连接 猩 独 与 人 和 大 猩猩 共同 祖先 的 分 支 上 。 
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无 根 树 有 根 树 
图 2-7 无 根 树 和 有 根 树 〈 此 图 片 来 自 互联 网 》 


二 义 树 是 一 种 特殊 的 树 ， 每 个 节点 最 多 有 两 个 子 节点 。 在 有 权 值 的 树 中 ， 分 支 的 长 度 
(或 权 值 ) 一 般 与 分 类 单元 之 间 的 变化 成 正比 ， 它 是 关于 生物 进化 时 间或 者 遗传 距离 的 一 种 
度量 形式 。 一 般 假 设 存 在 一 个 分 子 钟 ， 进 化 的 速率 恒定 。 
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(3) 系统 树 的 构建 方法 


构建 系统 树 的 数据 有 两 种 类 型 : 一 种 是 特征 数据 ， 可 以 是 基因 序列 、 人 个体、 群体 或 物 
种 特征 的 集合 ， 二 是 距离 数据 或 相似 性 数据 ， 它 表示 了 基因 序列 、 个 体 、 和 群体 或 物种 两 两 
之 间 的 相似 性 。 距 离 数据 可 由 特征 数据 计算 获得 ， 但 反 过 来 则 不 行 。 

分 子 水 平 的 系统 树 构 建 主 要 有 四 种 方法 。 巴 距离 矩阵 法 (Distance matrix method)， 首 
先 计 算 每 对 序列 之 间 的 进化 距离 〈 例 如 差异 的 碱 基 比 例 )， 其 准确 大 小 依赖 于 进化 模型 的 选 
择 ， 然 后 运行 一 个 聚 类 算法 ， 从 最 相似 〈 两 者 之 间 的 距离 最 短 ) 的 序列 开始 构建 整个 进化 
树 ; ORAHA (Maximum Parsimony，MP)， 较 少 涉及 遗传 假设 ， 它 通过 寻求 序列 间 最 
小 的 改变 来 完成 建树 的 ; @ 对 于 模型 的 巨大 依赖 性 是 最 大 似 然 法 (Maximum Likelihood, ML) 
的 特征 , 该 方法 在 计算 上 繁杂 , 但 为 统计 推断 提供 了 基础 ; 由 贝 叶 斯 算法 (Bayesian Inference 
of Phylogeny, BI) 以 MrBayes 为 代表 ， 不 过 速度 较 慢 ， 一 般 的 进化 树 分 析 中 较 少 应 用 。 

系统 进化 树 构建 和 显示 方面 常用 的 软件 有 : PHYLIP, PAUP (MP 法 常用 )、MEGA、 
MOLPHY8、PAML、PAxML (ML 法 常用 )、PUZZLE、TreeView、phylogeny、PHYML、 
MrBayes (BI 法 常用 ) 和 Tree of Life 等 。 PHYLIP 和 Tree View 简单 而 常用 ， 关 于 它们 的 使 
用 方法 请 参见 第 三 章 。MEGA 功能 更 加 强大 ， 预 计 会 逐渐 成 为 主流 。 


2.3 ”基因 表达 分 析 


2.3.1 基因 表达 的 检测 方法 


基因 表达 需要 直接 或 间接 测量 某 个 生物 个 体 〈 如 人 ) 内 全 部 基因 的 转录 产物 〈 指 狭 
义 的 转录 组 ) 在 细胞 中 的 丰 度 ， 和 常用 的 检测 方法 有 实时 获 光 定量 PCR (Quantitative real 
time PCR, qRT-PCR )、 基 因 (表达 谱 ) 芯片 (Microarray)、 表 达 序 列 标签 (0Expressed Sequence 
Tag, EST). 基因 表达 系列 分 析 CSerial Analysis of Gene Eexpression，SAGE) 和 转录 组 
测序 (RNA-seq) 等 。 当 前 ， 高 通 量 基因 表达 测量 方法 主要 是 基因 芯片 和 转录 组 测序 。 

基因 芯片 以 DNA 杂交 为 基本 原理 ， 基 于 A 和 T、G 和 C 的 互补 关系 ， 通 过 检测 样 
品 与 一 组 已 知 序列 的 核酸 探 针 杂交 后 的 信号 强度 来 测量 基因 表达 量 (图 2-8)。 当 前 ， 基 
因 芯 片 主 要 分 为 寡 聚 核 苷 酸 世 片 和 cDNA 忆 片 。 前 者 以 美国 Affymetrix 公司 为 代表 , 通 
过 显 微 光 蚀 刻 等 技术 ， 在 芯片 的 特定 部 位 原 位 合成 寡 聚 核 苷 酸 而 制 成 ， 这 种 芯片 集成 度 
较 高 ， 芯 片 之 间 性 能 稳定 ， 因 此 又 称 原 位 合成 芯片 、 高 密度 必 片 和 单 通道 必 片 ;后 者 多 
采用 双色 杂交 系统 ， 即 使 用 Cy5〈 红 ) 和 Cy3 CARO 两 种 染料 分 别 标记 所 比较 两 种 样品 
的 cDNA 序列 ， 然 后 杂交 至 同一 芯片 ， 通 过 染料 荧光 强度 ， 可 间接 比较 两 种 样品 表达 量 
高 低 ， 因 此 又 称 点 样 芯片 、 低 密度 芯片 和 双 通 道 《 即 两 种 颜色 ) 芯片 。 除 了 用 于 基因 表 
达 检 测 ， 基 因 芯 片 还 可 以 用 于 多 种 测量 领域 〈 见 4.2.32. mg, Bi T XE BECHER IT] 
高 密度 、 高 稳定 性 等 优势 ， 几 乎 完全 取代 了 点 样 芯片。 市 场 上 主流 的 寡人 察 核 音 酸 芯片 产 
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品 主要 来 自 三 家 公司 : Affymetric 公司 、Agilen 公司 和 Illumina 公司 HF Affymetrix 
产品 在 市 场 上 的 主流 地 位 ， 本 书 的 大 部 分 实例 都 基于 采用 Affymetrix 芯片 产生 的 数据 。 
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图 2-8 芯片 杂交 原理 


转录 组 测序 ， 即 RNA-seq《〈 见 本 章 2.2)， 不 仅 能 获得 已 知 基 因 的 表达 情况 ， 更 能 发 现 
新 的 转录 本 信息 。 由 于 RNA-seq 可 以 同时 测 得 转录 本 的 序列 和 数量 ， 因 此 除了 应 用 于 表达 
量 分 析 之 外 ， 还 可 用 于 可 变 剪接 以 及 转录 本 结构 变异 等 研究 。RNA-seq 在 信号 敏感 度 、 动 
态 测量 范 围 和 精度 等 方面 比 基 因 芯片 具有 优势 ,因此 成 为 了 当前 的 热门 技术 。 第 六 章 详细 
介绍 了 RNA-seq 技术 以 及 相应 的 数据 处 理 问 题 ， 这 里 不 再 详 述 。 


2.3.2 基因 表达 数据 分 析 


基因 表达 数据 通常 用 矩阵 形式 表示 ， 称 为 基因 表达 矩阵 〈 见 第 五 章 例 5-1)。 基 因 表 达 
和 矩阵 的 一 行 代表 一 个 基因 在 不 同 条 件 (如 实验 处 理 ) 下 或 来 源 ( 如 组 织 、 株 系 等 ) 的 表达 ， 一 
列 代表 某 个 条 件 下 或 菜 个 来 源 的 样品 内 的 所 有 基因 的 表达 情况 ， 每 个 格子 的 数据 表示 特定 
的 基因 在 特定 的 条 件 下 或 特定 来 源 的 某 个 样品 的 表达 水 平 。 

基因 表达 数据 分 析 就 是 通过 对 基因 表达 矩阵 的 分 析 , 回答 一 些 生物 学 问题 , 例如 ,在 不 
同 条 件 或 不 同 细胞 类 型 中 ， 哪 些 基 因 的 表达 存在 显著 差异 ? 这 些 基 因 有 什么 共同 的 功能 ， 
或 者 参与 什么 共同 的 代谢 途径 ? 在 不 同 条 件 下 ， 哪 些 基 因 变 化 一 致 ， 它 们 受到 哪些 基因 的 
调节 ， 或 者 控制 哪些 基因 的 表达 ? 哪些 基因 的 表达 是 细胞 状态 特异 性 的 ， 根 据 它们 的 行为 
可 以 判断 细胞 的 状态 (和 生存、 增殖、 分 化 、 凋 亡 、 癌 变 或 应 激 等 ) 等 等 。 基 因 表 达 数 据 分 
析 和 实验 设计 密 不 可 分 ， 总 体 来 说 ， 实 验 设计 有 两 大 类 思路 : 一 类 是 时 间 序 列 分 析 ， 主 要 
思想 是 测定 基因 多 个 时 间 点 的 表达 值 ， 通 过 聚 类 和 主 成 分 分 析 等 分 析 手 段 寻 找 共 调控 基因 ， 
进而 研究 其 深层 机 制 ， 第 二 类 就 是 基因 表达 差异 的 显著 性 分 析 。 


2.3.3 基因 表达 差异 的 显著 性 分 析 


基因 表达 差异 的 显著 性 分 析 (Significance analysis of gene differential expression )， 人 简称 
表达 差异 分 析 ， 是 当前 基因 表达 分 析 中 的 重 中 之 重 ， 其 目的 是 比较 两 个 条 件 (包括 种 属 、 
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表 型 等 ) 下 的 基因 表达 差异 ， 通 过 一 定 的 统计 学 方法 ， 从 中 识别 出 与 条 件 相关 的 特异 性 基 
因 ， 然 后 进一步 分 析 这 些 特异 性 基因 的 生物 学 意义 。 

基因 表达 差异 分 析 的 第 一 步 是 要 识别 在 两 个 条 件 下 有 显著 性 表达 差异 的 基因 ， 人 简称 差 
异 表 达 (Differential Expressed, DE) 基因 。 何 谓 显 著 性 表达 差异 ? 通常 是 指 一 个 基因 在 两 
个 条 件 中 表达 水 平 的 检测 值 的 差异 ， 具 有 统计 学 意义 ， 这 个 统计 学 意义 往往 是 基于 一 定 的 
统计 假设 〈 如 正 态 分 布 假 设 ) 的 。 常 用 的 算法 有 三 类 : 第 一 类 称 之 为 倍数 分 析 无 任何 统 
计 假 设 )， 计 算 每 一 个 基因 在 两 个 条 件 下 的 比值 ， 若 大 于 给 定 阔 值 ， 则 为 差异 表达 基因 ; 第 
二 类 方法 采用 经 典 统计 模型 (如 T 检验 ) 或 其 变种 (如 SAM 方法 四)， 计 算 表 达 差 异 的 置 
RE (P 值 )， 选 取 一 定 P 值 (如 0.01) 以 下 的 作为 差异 表达 基因 ， 第 三 类 是 通过 机 器 学 习 
方法 进行 特征 (基因 ) 选择， 包括 贝 叶 斯 模型 、 支 持 向 量 机 或 者 随机 森林 等 。 得 到 差异 表 
达 基 因 后 ， 通 常会 进行 基因 本 体 论 和 通路 分 析 〈 这 些 通常 成 为 下 游 分 析 )。 图 2-9 包括 了 表 
达 差 异 分 析 的 基本 步骤 ,“ 其 他 分 析 ” 包 括 了 一 些 更 高 级 的 统计 分 析 ， 例 如 机 器 学 习 和 进化 
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图 2-9 ”表达 差异 分 析 基 本 流程 
2.3.4 基因 本 体 论 分 析 


基因 本 体 论 CGene Onotology，GO) 分 析 包 括 GO 注释 和 GO 富 集 分 析 。GO 是 基因 本 
体 联合 会 《Gene Ontology Consortium). 所 建立 的 数据 库 ， 它 由 一 组 预先 定义 好 的 术语 (GO 
term) 组 成 ,这 组 术语 对 基因 和 和 蛋白 质 功 能 进行 限定 和 描述 ,适用 于 各 种 物种 ， 并 能 随 着 研 
究 不 断 深入 而 更 新 。GO 中 的 每 个 术语 都 有 唯一 的 一 个 GO ID, GO 的 所 有 术语 由 有 向 无 环 
图 (DAG) 来 相互 联系 ， 术 语 之 间 通 常 有 三 种 关系 :“is_a”、“part_of” 和 “regulates”。 下 
图 就 是 一 个 GO 术语 之 间 的 局 部 关系 图 。 
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图 2-10 ”基因 本 体 论 术语 之 间 关 系 图 


_ 所谓 GO 注释 ,就 是 将 表示 基因 或 其 产物 的 ID 映射 到 一 组 GO 的 ID 上 ,用 这 组 GO term 
来 描述 这 个 基因 。 而 实际 应 用 中 ， 人 们 更 关心 一 组 基因 《比如 差异 表达 基因 ) 的 共同 点 ， 
因此 会 对 它们 所 对 应 的 所 有 GO 的 分 布 情况 进行 分 析 ， 有 利于 发 现 新 的 现象 ， 或 者 集中 到 
感 兴趣 的 方向 。 

如 果 能 够 加 入 一 些 统计 模型 ， 使 分 析 更 加 深入 ， 可 能 会 产生 更 有 生物 学 意义 的 发 现 。 
GO 富 集 分 析 ， 就 是 基于 这 么 一 个 思想 的 分 析 方 法 。GO 富 集 分 析 的 统计 学 基础 是 超 几何 分 
布 ， 简 单 来 说 就 是 根据 下 列 Fisher 精确 检验 (Fisher exact test) 公式 ， 对 每 个 GO term 计算 
—^ P fi: 


ieu) 
p-\k À n-k 公式 2-1 
N 


n 


公式 2-1 中 ，N 表示 此 次 研究 中 《比如 一 张 芯片 上 ) 所 有 基因 总 数 ; n 表示 N P 
异 表达 基因 的 总 数 ，M 表示 N 中 属于 某 个 GO term 的 基因 个 数 ; k 表示 n 中 属于 某 个 
GO term 的 基因 个 数 。P 值 表 示 差 异 表达 基因 富 集 到 这 个 GO term 上 的 可 信 程 度 ， 当 了 
小 于 一 定 阔 值 (0.01 或 0.05)， 则 认为 差异 表达 基因 显著 性 的 富 集 到 这 个 GO term 上 。 
显著 富 集 的 GO term 为 研究 人 员 提 供 的 信息 更 为 集中 、 更 有 意义 , 对 后 续 研究 更 有 启发 。 

另外 , 值得 注意 的 是 ,由 于 不 是 所 有 的 基因 或 者 所 有 的 差异 表达 基因 都 有 GO 注释 ， 
因此 在 计算 N RI n 的 时 候 ， 有 些 文献 提出 了 不 同 的 方法 : N 表示 此 次 研究 中 (比如 一 张 
必 片 上 ) 所 有 有 GO 注释 的 基因 总 数 ; n 表示 N 中 差异 表达 基因 中 有 GO 注释 的 基因 总 
数 〈 见 例 5-24)。 这 个 问题 同样 存在 于 通路 富 集 中 的 P 值 计 算 中 。 但 是 对 于 人 这 类 GO 
注释 信息 比较 丰富 的 物种 ， 两 种 不 同 计算 方法 得 到 的 结果 差别 不 大 ， 一 般 很 少 有 人 加 以 
区 分 。 
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2.3.5 通路 分 析 


通路 (Pathway) 分 析 包 括 通路 注释 和 通路 富 集 分 析 。 通 路 富 集 分 析 的 基本 思路 、 统 计 
模型 等 基本 和 GO 富 集 分 析 如 出 一 略 。 而 且 ， 也 是 由 公式 2-1 来 计算 每 个 通路 的 P 值 。 公 
A 2-1 F, N 表示 此 次 研究 中 所 有 有 通路 注释 的 基因 总 数 ，M 表示 有 通路 注释 的 差异 表达 
基因 的 总 数 ; n 表示 N 中 属于 某 个 通路 的 基因 个 数 ; k 表示 M 中 属于 某 个 通路 的 基因 个 数 。 
得 到 的 P 值 ， 表 示 差 异 表达 基因 富 集 到 这 个 通路 上 的 可 信 程 度 ， 当 P 小 于 一 定 阔 值 〈0.01 
或 0.05)， 则 认为 差异 表达 基因 显著 性 的 富 集 到 这 个 通路 上 。 

常用 的 公共 通路 数据 库 主要 有 KEGG (Kyoto encyclopedia of genes and genomes), 
BioCarta 和 GenMAPP (Gene map annotator and pathway profiler)， 最 为 著名 的 是 KEGG 库 
中 的 代谢 通路 ，KEGG 代谢 通路 注释 几乎 成 为 了 通路 注释 的 代名词 。 很 多 事实 已 经 证 明 ， 
KEGG 的 数据 是 非常 可 靠 的 ， 因 此 本 书 中 的 应 用 实例 选用 KEGG 做 通路 注释 。 这 里 需要 注 
意 的 是 ，KEGG 有 两 个 比较 大 的 缺点 : 第 一 就 是 注释 源 问题 ， 它 只 提 到 由 相关 专家 收集 整 
理 而 成 , 没有 参考 文献 等 来 源 信 息 ; 第 二 就 是 授权 问题 , 由 于 它 授 权 过 于 严格 , Biocondocutor 
已 经 无 法 继续 支持 它 ， 转 而 开始 使 用 更 加 开源 的 Reactome 数据 库 。 


2.4 注释 、 统 计 与 可 视 化 


如 何 用 最 精简 的 语言 来 概括 生物 信息 学 狭义 的 ) 的 主要 工作 ， 那 就 是 注释 、 统 计 和 
可 视 化 。 这 里 的 注释 是 指 通 过 编制 计算 机 程序 自动 批量 注释 ， 它 往往 是 数据 处 理 的 第 一 步 ; 
统计 基于 多 条 序列 注释 的 结果 ; 可 视 化 贯穿 整个 数据 的 处 理 过 程 ， 是 生物 信息 学 的 一 个 重 
要 组 成 部 分 。 广 义 的 生物 信息 学 还 涉及 更 多 的 方向 ， 如 数据 库 构 建 和 数据 挖掘 领域 、 计 算 
生物 学 领域 〈 三 级 结构 预测 和 药物 对 接 ) 和 系统 生物 学 等 ， 这 里 不 做 讨论 。 

举例 来 说 , 如 果 你 通过 测序 得 到 一 条 DNA. 序列 , 首先 要 做 的 就 是 比 对 到 公共 数据 库 ( 即 
相似 性 搜索 )， 找 到 它 的 相似 序列 ， 得 到 这 条 相似 序列 的 功能 和 结构 等 各 类 信息 。 基 因 组 或 
转录 组 序列 的 注释 包括 基因 识别 和 基因 功能 注释 两 个 方面 。 基 因 识 别 的 核心 是 确定 全 基因 
组 序列 中 所 有 基因 (包括 编码 区 、 调 控 区 、5’ 端 未 翻译 区 和 3’ 端 未 翻译 区 等 ) 的 确切 位 置 。 
主要 有 两 种 方法 : 一 是 通过 相似 性 比 对 从 已 知 基因 和 蛋白质 序 列 得 到 间接 证 据 ; 二 是 基于 
各 种 统计 模型 和 算法 从 头 预 测 。 对 从 头 预 测 出 的 基因 进行 高 通 量 功能 注释 也 是 基于 相似 性 
搜索 。 





2.4.1 注释 与 ID 映射 


由 于 大 量 的 生物 信息 已 经 由 生物 学 家 分 门 别 类 收集 到 各 种 数据 库 中 ， 因 此 在 调用 这 些 
信息 时 ， 只 需要 提供 所 需 信 息 所 在 数据 库 的 ID 。 比 如 ， 如 果 你 想 用 到 哪 条 序列 的 简单 介绍 ， 
可 以 提供 NBCI Genbank 数据 库 的 Accession number; 如 果 是 蛋白 质 结构 信息 ,一 般 常 用 PDB 
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数据 库 的 ID。 注释 新 的 实验 数据 时 , 也 只 需要 把 这 些 已 知 信 息 在 各 种 数据 库 中 的 ID 与 实验 
数据 的 ID 对 应 上 ,， 这 叫做 ID 映射 (ID Mapping). ID 映射 在 数据 注释 工作 中 非常 重要 ， 以 
至 于 成 为 了 注释 的 代名词 。 

ID 映射 可 以 通过 编程 自动 化 地 进行 ， 大 大 提高 了 数据 注释 的 效率 。 除 了 自行 编程 ， 常 
用 的 数据 库 ID 之 间 的 映射 可 以 使 用 Uniprot 数据 库 网 站 的 工具 (图 2-11)。 芯 片 数据 处 理 过 
程 中 ， 经 常 要 将 Affymetrix 探 针 组 的 ID 映射 到 其 他 数据 库 ID， 这 方面 的 常用 工具 是 NIH 
网 站 的 DAVID (http://david.abcc.ncifcrf.gov/)。 


Search Blast Align Retrieve iD Mapping 


Database identifiers or file 
[ Choose File | No file chosen 


From 


| EMBL/GenBank/DDBJ [z] [Mapus] 
To Swap | 
UniProtKB AC [x] ER 


图 2-11 Uniprot 网 站 的 1D 映 射 工具 
2.4.2 统计 与 可 视 化 


对 于 一 组 基因 或 者 蛋白 质 , 往往 关心 的 是 它们 的 共性 , 因此 会 用 到 大 量 统计 学 方法 。 
例如 对 于 一 组 差异 表达 基因 ， 研 究 人 员 会 关心 这 组 基因 富 集 到 哪些 基因 本 体 论 术语 或 者 
通路 上 ， 这 就 需要 应 用 统计 学 方法 来 对 富 集 的 显著 性 进行 定量 。 统 计 为 后 续 研究 指明 了 
方向 ， 是 生物 信息 学 研究 的 核心 ;而 可 视 化 可 以 帮助 研究 人 员 更 好 地 理解 统计 结果 ， 提 
供 进一步 研究 的 思路 和 灵感 。R 语言 提供 了 强大 的 统计 和 绘图 功能 《人 见 第 一 章 )， 
Bioconductor 提供 简单 的 函数 调用 将 各 种 实验 结果 转换 为 符合 已 有 统计 和 绘图 函数 的 输 
入 要 求 的 数据 ， 因 此 ，R/Bioconductor 成 为 了 生物 信息 领域 的 一 个 关键 性 语言 。 

在 差异 表达 分 析 领 域 〈 特 别 是 来 自 某 些 常见 芯片 的 数据 )， 对 于 得 到 的 差异 表达 基 
因 ， 除 了 利用 R/Bioconductor 进行 统计 和 可 视 化 分 析 ， 还 可 以 使 用 一 些 提供 了 类 似 服务 
的 网 站 (如 前 面 提 到 的 NIH 网 站 的 DAVID 工具 和 5.73 提 到 的 IPA 软件 )， 
R/Bioconductor 的 优势 在 于 从 数据 到 结果 的 一 体 化 ， 省 去 了 大 量 的 手工 操作 ， 特 别 适 合 
大 批量 数据 的 自动 化 处 理 。 
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这 一 章 用 了 一 个 完整 的 生物 信息 学 课题 作为 例子 ， 从 课题 背景 、 研 究 目 的 、 程 序 编写 ， 
一 直到 代码 详解 等 方面 ， 完 整地 介绍 了 如 何在 实际 工作 中 根据 需求 应 用 R 和 Bioconductor 
来 解决 问题 。 本 章 抛弃 了 传统 的 语法 讲解 和 简单 举例 的 编写 方式 ， 转 而 通过 案例 学 习 ， 让 
初学 者 了 解 何 时 用 、 为 什么 用 以 及 怎么 用 R 和 Bioconductor, 以 摆脱 单纯 语法 学 习 的 枯燥 与 
迷惑 。 但 是 本 案例 包含 的 信息 量 巨大 ， 从 生物 信息 序列 处 理 、 外 部 程序 使 用 ， 到 R 语言 的 
多 个 扩展 包 ， 涉 及 多 个 方面 的 背景 知识 。 而 且 直接 阅读 R 源 代 码 对 于 初学 者 难度 很 大 ， 因 
此 可 以 说 ， 本 章 的 学 习 是 困难 的 ， 甚 至 是 痛苦 的 。 读 者 一 定 要 根据 前 面 的 三 板斧 学 习 法 ， 
逐 句 执行 并 显示 结果 ， 仔 细 对 比 输入 和 输出 数据 ， 再 结合 常用 函数 的 说 明 〈 见 附录 )， 才 能 
读 懂 程 序 。 反 复 阅 读 、 调 试 源 代码 是 学 习 计算 机 编程 语言 唯一 的 捷径 ， 非 计算 机 背景 的 初 
学 者 ， 更 要 自觉 提高 动手 能 力 ， 以 适应 计算 机 语言 学 习 的 特点 。 

本 章 3.1 是 课题 介绍 ; 3.2 应 用 一 般 扩 展 R E E Bioconductor) 实现 这 一 课题 ( 例 3-1); 
3.3 和 3.4 应 用 Bioconductor 中 的 扩展 R 包 再 次 实现 这 一 课题 ( 例 3-2 与 例 3-3)。 读 者 在 学 
习 过 程 中 ， 要 仔细 对 比 Bioconductor 的 扩展 R 包 与 一 般 扩 展 R 包 编程 的 不 同 思 维 方式 和 主 
要 差别 ， 深 入 体会 Bioconductor 处 理 生 物 信息 问题 带 来 的 巨大 便利 。 掌 握 好 这 一 章 的 内 容 ， 
是 继续 学 习 好 后 面 章 节 的 基础 。 本 章 的 课题 仅仅 作为 一 个 范例 ， 读 者 不 必 考 虑 得 到 的 结果 
〈 例 如 进化 树 ) 是 否 到 达 预 期 ， 而 应 该 把 主要 精力 集中 到 方法 的 学 习 以 及 如 何 用 编程 实现 想 
要 的 结果 等 方面 。 


3.1 一 个 序列 分 析 课题 


3.1.1 课题 背景 


在 自然 界 中 ， 有 些 环境 是 普通 生物 不 能 生存 的 ， 如 极端 的 温度 、 酸 碱 盐 、 压 力 、 辐 射 
等 。 然 而 ， 这 里 仍然 有 一 些微 生物 在 顽强 地 生活 着 ， 它 们 就 是 极端 微生物 。 极 端 微生物 的 
生态 、 分 类 、 代 谢 、 进 化 等 均 与 一 般 生 物 有 别 ， 并 蕴藏 了 优异 的 抗 逆 基因 资源 ， 有 重要 的 
研究 价值 和 应 用 前 景 。 

极端 嗜 盐 古 菌 CHalobacterium sp. NRC-1) 是 一 生存 于 高 盐 环 境 下 的 古 生 菌 (Archaeon )， 
它 在 分 类 学 上 位 于 Archaea Jt, Euryarchaeota |]; Halobacteria 93, Halobacteriales H, 
Halobacteriaceae ft, Halobacterium 属 。 通 过 分 析 Halobacterium sp. NRC-1 的 基因 组 序列 ， 
共 得 到 2630 个 可 能 编码 和 蛋白质 的 基因 ,其 中 41% 的 基因 所 表达 出 的 蛋白 质 是 有 功能 注释 的 ， 
22% 与 其 他 物种 未 知 功能 的 蛋白 质 有 高 度 的 保守 性 , 36% 的 基因 表达 出 的 蛋白 质 无 法 比 对 到 
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其 他 物种 的 蛋白 质 (Ng et al., et al., 2000). 
3.1.2 研究 目的 与 实验 设计 


极端 嗜 盐 古 菌 发 展 出 许多 复杂 且 完 整 的 分 子 机 制 以 对 抗 盐分 、 氧 气 、 光 和 养分 的 变动 ， 
因此 可 以 尝试 从 蛋白 质 水 平 寻找 某 些 序列 特征 ， 以 期 找到 一 些 相关 的 机 制 。 由 于 本 例 的 目 
的 在 于 培养 初学 者 使 用 R 语言 编程 的 思维 方式 ， 因 此 仅仅 提供 一 些 最 基本 的 序列 分 析 源 代 
码 ， 不 涉及 更 多 的 生物 学 意义 ， 以 简化 读者 的 学 习 任务 。 实 验 设 计 包括 以 下 五 个 方面 的 任务 : 

A. 将 蛋白 质 序列 批量 导入 ; 

B. 统计 每 条 序列 的 氨基 酸 百分比 含量 ; 

C. 特定 模 序 匹配 与 统计 ， 提 取 包 含 模 序 2 次 以 上 的 蛋白 质 序列 ; 

D. 对 提取 的 序列 进行 两 两 比 对 ; 

E. 根据 比 对 结果 构建 系统 发 生 树 。 


3.1.3 数据 获取 与 处 理 流程 


首先 登录 NCBI Genbank 数据 库 ( 版 本 190) 中 的 下 载 链接 ftp://ftp.ncbi.nih.gov/genbank, 
进入 genomes 子 目录 ， 再 进入 到 Bacteria 子 目 录 ， 最 后 进入 “Halobacterium_sp_uid217” 子 
目录 ， 下 载 文件 “AE004437.faa”。 该 数据 的 存 贮 格式 是 fasta 格式 ， 共 包括 2058 条 序列 记 
录 ， 存 为 11 457 行文 本 。 


ft 
AE004437.faa 


(A5 —] 


对 象 
my_sequences 


(B» O] 
NE 


Kc 


(D» ] 
文件 


my. needle file 


CE XL 
score_matrix 

‘ED QD 

ACH 


infile 






AApercentage 
.CSV 

















图 3-1 例 3-1 数 据 处 理 流程 图 


为 实现 整个 课题 ， 需 要 设计 一 个 处 理 流程 ， 这 就 需要 用 到 数据 流程 图 (Data Flow 
Diagram, DFD) 来 作为 设计 工具 。 图 3-1 是 本 课题 的 数据 流程 图 ， 图 中 的 椭圆 形 图 标 表示 
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数据 流 的 起 始 与 终止 ,矩形 符号 表示 中 间 数 据 和 结果 ， 萎 形 符号 表示 数据 处 理 或 加 工 步 又 
的 名 称 。 在 数据 处 理 过 程 中 ， 中 间 结 果 的 保存 可 以 使 用 变量 或 者 文件 ， 最 终结 果 用 文件 保 
存 。 如 本 课题 的 最 终结 果 文 件 有 “AApercentage.csv” 和 “outfile”， 前 者 是 为 了 用 于 其 他 分 
Br, 这 里 不 再 详 述 ,后 者 保存 了 进化 树 信息 。 用 户 可 以 选择 多 种 软件 查看 进化 树 步骤 EAD, 
这 部 分 不 包括 在 流程 中 。 

本 课题 中 的 数据 处 理 步 又 用 大 写字 母 符 号 表示 ， 与 3.1.2 中 的 任务 一 一 对 应 。 步 又 A、 
B. C. EI 和 E2 用 RR 语言 编写 函数 ,步骤 D 由 R 函数 调用 其 他 外 部 程序 〈 非 及 语言 编写 ) 
实现 ，E3 和 EA 借助 其 他 软件 实现 。 本 书后 面部 分 可 以 看 到 这 些 程序 和 软件 〈 非 R 语言 
写 ) 的 功能 也 可 以 由 R 语言 实现 ， 之 所 以 调用 外 部 程序 或 借助 其 他 软件 实现 ， 主 要 是 为 了 
进一步 介绍 如 何 使 R 与 其 他 程序 或 者 软件 配合 使 用 以 完成 复杂 的 生物 信息 数据 分 析 ， 因 为 
这 种 做 法 在 实际 工作 会 经 常用 到 。 一 种 最 常见 情况 就 是 ， 读 者 已 经 熟练 掌握 了 一 些 生物 信 
息 软 件 ， 只 需要 用 R 完成 这 些 软件 不 具备 的 几 个 功能 ， 而 不 需要 用 R 语言 实现 全 部 功能 ， 
大 大 减少 了 项 目 开 发 的 工作 量 。 

A. 函数 seq_import(input_file); 

B. 函数 pattern_match(pattern, sequences, hit num); 

C. 函数 getAApercentage(sequences); 

D. 函数 seq_alignment(sequences)+ EMBOSS 软件 包 之 needle.exe 程序 ; 

El. 函数 getScoreMatrix(sequences); 

E2. 函数 infile produce(scorem); 

E3. PHYLIP 软件 包 之 neighbor.exe 程序 ; 

E4. PHYLIP 软件 包 之 retree.exe 程序 和 TreeView 软件 。 


3.2 用 R 包 ( 非 Bioconductor) 实现 课题 


3.2.1 定义 全 部 函数 


A. 定义 序列 导入 函数 'seq_import' 


实现 如 下 功能 

(DEA fasta 格式 的 数据 文件 ， 计 算 每 个 序列 的 长 度 ; 

@ 结 果 返 回 一 个 数据 框 格式 的 变量 ， 每 行 是 一 个 序列 记录 ,包括 4 列 信息 〈 序 列 的 ID、 
序列 注释 信息 、 序 列 长 度 和 序列 内 容 )。 

R 语言 代码 如 下 : 

seq_import<- function(input file) { 

# 逐 行 读 取 数据 ， 并 存 入 向 量 my_fasta， 向 量 每 个 元 素 对 应 文件 input_file 中 的 一 行 ， 
这 样 以 后 可 以 通过 操作 向 量 my_fasta， 来 操作 对 应 文件 的 行 。 

my. fasta«- readLines(input_ file); 
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# 判断 my_fasta 中 每 个 元 素 第 一 个 符号 是 否 是 “>”( 表 示 一 个 fasta 记录 的 注释 行 )， 
判断 结果 用 1 和 -1 表示 ， 并 存 入 向 量 y。 
y <- regexpr("^»", my_fasta, perl = T); 


# [BE y 中 为 1 的 元 素 替 换 为 0， 即 序列 行 对 应 -1， 注 释 行 对 应 0， 这 行 语句 只 是 一 个 
习惯 问题 ， 不 是 必需 的 。 
yly == 1] <- 0; 


# 用 index 记录 下 y 中 全 部 的 0 在 向 量 中 的 位 置 ， 对 应 注释 行 的 行 号 。 
index<- which(y == 0) ; 


8 生成 数据 框 distance, 包括 第 1 列 start( 除 最 后 一 个 fasta 记录 外 的 所 有 注释 行 的 位 置 》 
和 第 2 列 end 除 第 一 个 fasta 记录 外 的 所 有 注释 行 的 位 置 )。 
distance <- data.frame(start = index[1:(length(index) - 1)], end = index[2:length(index)]); 


d 在 数据 框 distance 最 后 增加 一 行 两 个 元 素 ), 第 1 个 是 最 后 一 个 fasta 记录 的 注释 行 
位 置 ， 第 2 个 是 为 所 有 行 的 行 数 +1)。 
distance<- rbind(distance, c(distance[length(distance[, 1]), 2], length(y) + 1)); 


# 在 数据 框 distance 后 面 加 1 列 ， 其 值 是 第 2 列 和 第 1 列 之 差 , 注释 行 之 间 的 距离 ， 实 
际 上 就 是 每 条 序列 记录 对 应 的 行 数 。 
distance <- data.frame(distance, dist = distance[, 2] - distance[, 1]); 


# 建立 从 1 开始 的 连续 正 整数 向 量 ， 长 度 等 于 注释 行 的 数量 。 
seq_no<- 1:length(y[y == 0]); 





+ 重复 正 整数 向 量 seq no 中 的 每 一 个 元 素 , 重复 次 数 为 两 个 临近 注释 行 之 间 的 距离 ( 即 
distance[, 3] )。 
index<- rep(seq no, as.vector(distance[, 3])); 


# 建立 一 个 新 的 数据 框 变量 ， 名 称 还 是 my fasta, 包括 3 列 内 容 ， 第 1 列 是 index， 第 
2 列 是 y， 第 3 列 是 旧 的 my_fasta。 
my. fasta«- data.frame(index, y, my. fasta); 


# 数据 框 my fasta F, $ 2 列 为 0 的 元 素 ， 对 应 的 第 1 列 赋值 为 0。 
my. fasta[my. fasta[, 2] == 0, 1] <- 0; 


* tapply 函数 调用 paste 函数 的 字符 串 连接 功能 ， 把 my fasta[, 3] 中 的 同一 类 元 素 合并 ， 
my. fasta[, 3] 的 类 别 由 对 应 my_fastaL, 1] 的 数据 来 决定 ， 如 “0” 表 示 序 列 所 有 的 注释 行 ,“1” 
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表示 第 一 条 记录 的 序列 内 容 ， 以 此 类 推 。 
seqs <- tapply(as.vector(my. fasta[, 3]), factor(my. fasta[, 1]), paste, collapse ="", simplify = 
F); 


# 将 变量 seq 由 数组 类 型 转化 为 字符 串 向 量 ， 不 包括 第 1 个 元 素 〈 所 有 注释 行 )， 剩 下 
的 内 容 为 所 有 记录 的 序列 。 


seqs <- as.character(seqs [2:length(seqs)]); 


# 从 my. fasta[, 3] 中 提取 所 有 的 注释 行 ， 存 入 向 量 Desc。 
Desc<- as.vector(my_fasta[c(grep("^>", as.character(my fasta[, 3]), perl ZTRUE)), 3]); 


# 建立 一 个 新 的 数据 框 变量 ， 名 称 还 是 my_fasta, 每 行 对 应 一 个 序列 记录 , 包括 3 列 信 
息 〈 序 列 的 注释 、 长 度 和 序列 内 容 )。 
my_fasta<- data.frame(Desc, Length =nchar(Seqs), seqs); 


# 从 my. fasta 第 1 列 的 注释 行 中 提取 序列 的 ID(Accession Number). 
Acc<- gsub(".*gbW(.*)W.*", "WI", as.character(my fasta[, 1]), perl = T); 


# 将 字符 串 向 量 Ace 添加 到 数据 框 左边 ， 成 为 一 列 。 


my_fasta<- data.frame(Acc, my. fasta); 


# 将 my. fasta 返回 ， 这 是 习惯 性 的 ，R 把 最 后 出 现 的 数据 作为 返回 值 。 
my. fasta; 
) 


B. 定义 模式 匹配 函数 pattern_match' 


实现 如 下 功能 : 

@ 计 算 自 定义 模 序 在 所 有 蛋白质 序 列 中 的 匹配 位 点 和 次 数 ; 

@ 输 出 匹配 次 数 超过 某 一 阔 值 的 蛋白 质 序 列 到 文件 Hit_sequences.fasta; 

(BHit_sequences.fasta 中 的 序列 要 求 用 小 写字 母 ， 匹 配 的 部 分 用 大 写 ; 

@ 返 回 一 个 数据 框 对 象 , 每 行 对 应 一 个 匹配 的 蛋白 质 序列 , 包括 4 列 信息 (序列 的 Acc, 
序列 注释 信息 ， 序 列 长 度 ， 用 “,” 分 割 的 匹配 的 所 有 位 点 、 匹 配 次 数 和 和 蛋白 质 序列 )。 

R 语言 代码 如 下 : 


pattern_match<- function(pattern, sequences, hit num) { 


# 获取 正则 表达 式 pattern 表示 的 模 序 在 所 有 序列 中 出 现 的 位 置 (未 找到 匹配 将 返回 -1)， 
所 有 位 置 存 入 一 个 列表 对 象 pos，perl=T 表示 兼容 perl 的 正则 表达 式 格式 。 
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pos«- gregexpr(pattern, as.character(sequences[, 4]), perl- T); 
* lapply 函数 调用 paste 函数 的 字符 串 连 接 功 能 ， 对 pos 中 的 每 个 成 员 的 第 一 个 元 素 操 


即 用 去 号 连接 成 一 个 字符 串 ， 再 用 unlist 将 所 得 的 列表 转换 为 向 量 posv。 
posv«- unlist(lapply(pos, paste, collapse =", ")); 


S 


# 将 向 量 posv 中 值 为 -1 的 项 赋值 为 0， 即 表示 该 序列 中 未 找到 模 序 pattern. 
posv[posv == -1] «- 0; 


# lapply 函数 调用 自 定义 函数 fanction， 根 据 pos 中 的 每 一 个 元 素 ， 计 算 pattern 在 每 条 
序列 中 匹配 的 个 数 ， 再 由 unlist 函数 将 结果 转变 为 向 量 。 
hitsv«- unlist(lapply(pos, function(x) if (x[1] == -1) (0) else (length(x)))); 


# 产生 一 个 数据 框 类 型 的 结果 sequences, IRM T [EK sequences 数据 的 第 1、2、3、4 
列 ， 又 插入 了 2 列 ， 即 匹配 位 点 〈Position) 和 匹配 次 数 〈Hits )。 

sequences <- data.rame(sequences[, 1:3], Position = as.vector (posv), Hits -hitsv, 
sequences], 4]); 


# 找 出 匹配 次 数 大 于 hit num 的 序列 ， 并 将 大 写 形式 替换 为 小 写 ，gsub 中 第 一 个 参数 
[A-Z] 匹 配 任意 大 写字 母 ,“NLN1” 表 示 将 前 面 小 括号 中 匹配 的 任意 字母 替换 为 其 小 写 形式 。 
‘tag <- gsub( ((A-Zp", "NEA", as.character(sequences[sequences[, 5]> hit num, 6]), perl = 

T, ignore.case = T); 


# 为 模 序 pattern 加 上 小 括号 ， 以 适合 perl 正则 表达 式 格式 ， 方 便 下 面 使 用 。 


pattern2 = paste("(", pattern, ")", sep —""); 


# 将 tag 序列 中 ， 和 模 序 pattern 匹配 的 部 分 替换 为 大 写 ， 原 理 同 上 ,“NUN1” 表 示 替 换 
为 大 写 o 
tag«- gsub(pattern2, "NUMI", tag, perl = T, ignore.case = T); 


# 找 出 匹配 次 数 大 于 hit, num 的 序列 ， 并 将 序列 内 容 替 换 为 tag 中 的 序列 内 容 ， 存 于 数 
据 框 export。 


export<- data.frame(sequences[sequences[, 5] > hit num,-6].tag); 


# Acc 号 前 添加 fasta 格式 标识 “>”， 得 到 数据 框 export， 第 1 列 是 Acc， 第 2 列 是 小 写 
字母 表示 的 蛋白 质 序列 (模式 用 大 写 表示 )。 


export<- data.frame(Acc =paste(">", export[, 1], sep =""), seq = export[,6]); 


# 数据 框 export 矩阵 转 置 输出 ， 到 文件 Hit sequences.fasta (fasta 文件 格式 )。 
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write.table(as.vector(as.character(t(export)), file = "Hit sequences.fasta"，quote = F, 
row.names = F, col.names = F); 


# 输出 提示 信息 。 


cat(" 含 有 模 序 \"", pattern, "VERE", hit num, "个 的 所 有 蛋白 质 序列 已 写 入 当前 工作 目录 
下 文件 '"Hit sequences.fasta"", n", sep =""); 


# 选中 匹配 次 数 Csequences 的 第 5 列 ) 大 于 hit num 的 序列 。 


selected«- sequences[sequences[, 5] »hit num, ]; 


# 输出 提示 信息 。 

cat(" 极 端 嗜 盐 古 菌 蛋 白 组 中 以 下 序列 含有 模 序 \""，pattern,"\" 的 数量 超过 2 个 : ", Nn", 
Sep 

# 输出 选中 序列 的 第 1 到 5 列 到 终端 ， 第 6 列 是 序列 内 容 太 长 ， 不 显示 。 

print(selected[, 1:5]); 


8 返回 选中 序列 。 
selected; 


) 


C. 定义 氨基 酸 含量 统计 函数 'getAApercentage' 


实现 如 下 功能 : 

中 统计 输入 的 每 条 和 蛋白 序列 的 氨基 酸 百 分 比 含量 ; 

@@ 结 果 返 回 一 个 数据 框 格式 的 变量 ， 每 行 是 一 种 氨基 酸 (JE 20 行 )， 每 列 对 应 一 条 序 
列 ; 

@ 同 时 把 百分比 含量 计算 结果 输出 到 文件 “AApercentage.csv”。 

R 语言 代码 如 下 : 


getAApercentage<- function(sequences) { | 

# 生成 一 个 包含 20 种 标准 氨基 酸 单字 母 简写 的 数据 框 AA。 

AA <- data.frame(AA =c("A", "C", "D", "E", "E", "G", "H", "T", "K", "L", "M", "N", "P", 
RS 


# strsplit 函数 将 序列 内 容 sequences[, 6] 转 换 成 字符 数组 , lapply 函数 调用 table 函数 统计 
每 条 序列 中 各 字符 (氨基 酸 ) 出 现 的 次 数 。 
AAstat<- lapply(strsplit(as.character(sequences[, 6]), ""), table); 
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# 下 面 循 环 每 次 处 理 一 条 序列 ， 全 部 序列 共 length(AAstat) 条 。 
for (i in 1:length(AAstat)) { 

# 计算 每 条 序列 中 20 种 氨基 酸 出 现 的 百分比 。 

AAperc<- AAstat[[i]]/sequences[, 3][i] * 100; 


# 转换 为 数据 框 ， 第 1 列 是 氨基 酸 种 类 ， 第 2 列 是 百分比 含量 。 
AAperc<- as.data.frame(AAperc); 


# 将 数据 框 第 2 列 名 称 改 为 第 i 条 序列 的 Acco 
names(AAperc)[2] <- as.vector(sequences[i, 1]); 


# 通过 AA 中 的 列 名 为 “AA” 的 列 和 AAperc 中 列 名 为 “Varl1” 的 列 之 间 的 元 素 同名 
映射 合并 #AA 和 AAperc， 并 产生 一 个 新 的 对 象 AA 保存 结果 ， 这 样 做 实质 就 是 按照 “AA” 
的 20 种 氨基 酸 的 顺序 不 断 添加 在 每 个 序列 中 的 分 布 数据 ， 每 个 循环 至 少 一 列 。 

AA <- merge(AA, AAperc, by.x ="AA", by.y =" Varl", all = T); 

} 

# 循环 结束 。 


# 将 AA 中 氨基 酸 种 类 或 百分比 为 “NA” 的 项 赋值 为 0。 
for (i in 1:length(AA[[1]])) { 

# 外 循环 总 次 数 是 20〈 种 氨基 酸 )。 
for (j in 1:length(AA)) { 

# 内 循环 总 次 数 是 序列 总 数 +1。 

if (is.na(AA[i, j])) ( 

8 如 果 发 现 “NA” 。 

AAL[i, j] <- 0; 

# 替换 为 0。 

} 

) « 

} 

# 循环 结束 。 


# 统计 所 有 序列 中 每 种 氨基 酸 出 现 的 平均 百分比 ， 放 入 AA 最 后 一 列 。 
AApercentage <- data.frame(AA, Mean -apply(AA[, 2:length(AA)], 1, mean, na.rm = T)); 


# 将 对 象 AApercentage 输出 到 同名 的 esv 文件 。 


write.csv(AApercentage, file Z"AApercentage.csv", row.names = F, quote = F) ; 


# 提示 计算 完成 。 
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cat(" 氨 基 酸 分 布 数 据 已 经 写 入 当前 工作 目录 下 的 文件 'AApercentage.csv", n"); 


# 返回 AApercentage。 
AApercentage; 
} 


D. 定义 两 两 比 对 函数 'seq_alignment 


实现 如 下 功能 : 
调用 外 部 程序 “needle” 完 成 所 有 序列 的 两 两 比 对 ， 结 果 存 入 文件 。 
R 语言 代码 如 下 : 


seq_alignment<- function(sequences) { 

# shell 可 调用 操作 系统 命令 ， 命 令 以 字符 串 形 式 给 出 ，del 为 Windows 系统 上 的 删除 命 
令 ， 人 选项 表示 强制 删除 只 读 文件 ，my_needle_file 为 所 要 删除 的 文件 名 ， 这 样 做 的 目的 是 
删除 上 次 程序 运行 的 结果 文件 ， 否 则 本 次 运行 结果 会 追加 写 入 上 次 的 结果 文件 。 

shell("del /f my. needle file"); 


# 下 面 循环 每 次 写 一 条 序列 存 入 file1， 另 一 条 存 入 file2, 然后 调用 needle 程序 做 比 对 ， 
这 样 每 次 都 是 对 比 两 条 序列 ， 结 果 追 加 写 入 结果 文件 。 
for (i in l:length(sequences[, 1])) { 


# 第 1 条 序列 写 入 filel (fasta 格式 )。 


cat(as.character(paste(">",as.vector(sequences[i,1]),sep="")),as.character(as.vector(sequences 
[i, 6])), file ="file1", sep ="\n"); 


for (j in 1:length(sequences[, 1])) { 
# 第 2 条 序列 写 入 file2 (fasta 格式 )。 


cat(as.character(paste("»",as.vector(sequences[j,1 ]),sep-"")),as.character(as.vector(sequences 
0, 6), file z"file2", sep ="\n"); 


# 调用 needle 程序 对 比 filel 和 file2 中 的 序列 ， 结 果 追 加 写 入 文件 “my_needle_file”。 
shell("needle filel file2 stdout -gapopen 10.0 -gapextend 0.5 >> my. needle file"); 
} 
} 
# 提示 结果 。 
cat("Needle 程序 完成 所 有 序列 的 两 两 比 对 ， 结 果 存 入 文件 \"my_needle_file\"\n"); 
} 


z 
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El. 定义 函数 'getScoreMatrix' 求 得 分 矩阵 

实现 如 下 功能 : 

0 读 取 比 对 结果 文件 “my_needle_file”; 

@ 基 于 两 两 比 对 得 分 ， 生 成 得 分 矩阵 ， 求 倒数 得 到 距离 矩阵 ; 
怨 根 据 距 离 矩 阵 得 到 所 有 序列 的 聚 类 关系 ， 并 绘图 ; 
返回 得 分 矩阵 作为 结果 值 。 

R 语言 代码 如 下 : 


getScoreMatrix<- function(sequences) { 
# 读 取 my. needel file 中 的 所 有 行 ， 存 入 向 量 score. 


score <- readLines("my. needle file"); 


4 查找 以 “# Score” 开 头 的 行 〈 如 # Score: 290.5), T£ IR] Œ score. 


score <- score[grep(" ^t Score", score, perl = T)]; 


# 将 任意 结尾 带 空格 的 字符 串 替 换 为 空 ， 只 保留 score 后 面 的 得 分 数字 。 


score <- gsub(".* ", "", as.character(score), perl = T); 


3 将 字符 向 量 转 为 数值 向 量 。 


Score «- as.numeric(score); 


# 将 score 转换 为 n*n 的 数值 矩阵 ，n 为 序列 条 数 length(sequences[, 1]). 
Scorem<-matrix(Score,length(Sequences[,1]),length(sequences[,1]),dimnames=list(as.vector 
(Sequences[, 1]), as.vector(sequences[, 1]))); 


# 得 分 矩阵 求 倒数 ， 得 到 普通 距离 矩阵 ， 用 as.dist 函数 转换 为 下 三 角 距 离 矩 阵 。 


scorem.dist«- as.dist(1/scorem); 


# 根据 距离 矩阵 ， 调 用 层次 聚 类 函数 hclust 对 所 有 序列 聚 类 。 


hc<- hclust(scorem.dist, method -"complete"); 


8 绘制 层次 聚 类 结果 。 
plot(hc, hang = -1, main ="Distance Tree Based on Needle All-Against-All Comparison", 
xlab =" sequence name", ylab -"distance"); 


# 返回 比 对 得 分 矩阵 。 
scorem; 


) 
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E2. 定义 函数 'infile_produce' 


实现 如 下 功能 : 
根据 输入 的 得 分 矩阵 得 到 Phylip 格式 的 距离 矩阵 。 
R 语言 代码 如 下 : 


infile. produce<- function(scorem) { 
# 求 得 分 矩阵 倒数 ， 作 为 距离 矩阵 。 


z <- l/scorem; 


# 计算 scorem 行 或 列 的 长 度 。 
len = sqrt(length(scorem)) ; 


# 将 距离 矩阵 中 对 角 线 赋值 为 0,seq 生成 一 个 从 1 到 length(scorem)If] [5] €, by 为 步 长 ， 
向 量 中 的 值 即 对 角 线 元 素 在 z 中 的 位 置 。 
z[seq(1, length(scorem), by = (len + 1))] «- 0; 


# 利用 round 函数 将 z 中 数值 保留 到 小 数 点 后 7 位 。 


z «- round(z, 7) ; 


# 输出 len 长 度 信息 到 infile. 


write.table(len, file ="infile", quote = F, row.names = F, col.names = F) ; 


# 追加 〈append=T) 输出 距离 矩阵 z 到 infile. 


write.table(as.data.frame(z), file ="infile", append = T, quote = F, col.names = F, sep ="\t"); 


# 结果 提示 。 

cat("Phylip 格式 的 距离 矩阵 已 经 输出 到 工作 目录 下 名 为 'infile' 的 文件 ， 以 便 使 用 Phylip 
软件 继续 进行 分 析 。", 0; 

} 


3.2.2 课题 实现 


我 们 用 三 板 径 方 法 ， 运 行 前 面 定义 的 所 有 函数 ， 显 示 结 果 ， 完 成 整个 课题 。 

首先 , 将 下 载 的 数据 文件 “AE004437.faa” 存 放 到 R 的 工作 目录 “C:/workingdirectory”， 
进入 R 主 程序 ， 然后， 加 载 程 序 运行 需要 的 R 包 ， 由 于 本 例 中 所 有 程序 只 是 调用 了 R 基本 
包 ，R 主 程序 运行 时 会 自动 加 载 ， 不 需要 男 外 加 载 R 包 ; 最 后 ， 找 贝 前面 所 有 定义 的 函数 ， 
粘贴 到 R 主 程序 , 回 车 ;开始 逐个 运行 下 面 的 函数 , 或 全 部 运行 A 到 E2 得 到 结果 文件 “infile”。 
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A. 调用 函数 'seq_import' 导 入 数据 


setwd("C:/workingdirectory"); 
my. file<- "AE004437.faa"; 
my. sequencesc- seq import(input file = my file); 


B. 调用 函数 pattern_match' 寻 找 模 序 


hit sequences<- pattern match(pattern ="H..H{1,2}", sequences = my. sequences, hit num 
-2) 


C. 调用 函数 'getAApercentage' 统 计 和 氨基 酸 百 分 含量 


AA_percentage<- getAApercentage(Sequences = hit sequences) 


D. 调用 函数 'seq_alignment' 进 行 序 列 两 两 比 对 


该 函数 用 到 了 欧洲 分 子 生 物 学 开放 软件 包 (The European. Molecular Biology Open 
Software Suite, EMBOSS) 中 的 “needle.exe” 程 序 。 首 先 直 接 进入 EMBOSS 官网 的 ftp H 
录 ftp://emboss.open-bio.org/pub/EMBOSS/windows/， 可 以 看 到 当前 最 新 的 版 本 (支持 
Windows 平台 )， 本 书 使 用 的 是 “mEMBOSS-6.4.0.4-setup.exe”。 下 载 后 默认 安装 即 可 ， 然 
后 执行 下 列 R 语句; 


seq alignment(sequences = hit sequences) 


El. 调用 函数 'getScoreMatrix' 得 到 得 分 矩阵 


score matrix«- getScoreMatrix(sequences = hit sequences) 


E2. 调用 函数 'infile_produce' 生 成 PHYLIP 软件 的 输入 文件 infile 


infile produce(scorem = score matrix) 


E3. 调用 PHYLIP 软件 生成 进化 树 


该 函数 用 到 了 系统 发 生 推断 软件 包 〈the PHYLogeny Inference Package，PHYLIP)。 首 
先 登 录 PHYLIP 软件 包 官 网 Chttp://evolution.genetics.washington.edu/ phylip/getme.html)， 下 
载 自 解压 文件 “self-extracting archive of PHYLIP 3.69 for Windows”( 也 有 可 能 是 其 他 版 本 )， 
下 载 后 解压 到 一 个 文件 夹 中 即 可 使 用 。 进 入 该 文件 夹 的 子 目 录 “exe”， 双 击 运 行程 序 
“neighbor.exe” 将 上 一 步 生成 的 结果 文件 “infile” 拖 入 到 neighbor 窗口 (图 3-2), 输入 “Y”， 
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并 按 下 回 车 键 运行 ， 运 行 后 ， 生 成 两 个 输出 文件 :“outfile” 和 “outtree”。 两 个 文件 都 是 文 
本 文件 ， 前 者 方便 阅读 ， 后 者 主要 是 用 于 其 他 软件 的 输入 。 









图 3-2 调用 PHYLIP 软件 生成 进化 树 
E4. 进 化 树 的 查看 与 编辑 


在 “neighborexe” 同 一 目录 下 ， 有 另外 一 个 程序 “retree.exe”， 可 以 查看 和 编辑 该 进化 
树 。 首 先 将 文件 “outtree” 改 名 为 “intree”， 作为 程序 retree 的 输入 文件 ， 开 始 运行 retree 
后 ， 需 要 将 Graphics type 由 IBM PC 改 为 “none”( 输 入 0 并 按 下 回 车 ， 重 复 2 次 )， 然 后 在 
提示 下 输入 “Y” 并 按 下 回 车 ， 即 可 看 到 图 3-3。 






图 3-3 ”调用 PHYLIP 查看 和 编辑 进化 树 


四 60 R3&$ 5 Bioconductor 生物 信息 学 应 用 


如 果 想 用 多 种 方式 来 查看 该 进化 树 ， 还 可 以 使 用 软件 TreeView ， 并 登录 网 站 
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html , 选择 合适 的 版 本 下 载 ， 默认 安装 后 运行 
TreeView， 打 开 文 件 “outtree”， 即 可 看 到 图 3-4. 
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图 3-4 ”调用 TreeView 查 看 进化 树 
3.2.3 娠 代码 详解 与 小 结 


A. 函数 'seq_import 


进入 函数 “seq_import” 的 内 部 ， 解 析 该 函数 的 代码 。 首 先 ， 找 贝 下 面 代码 行 ， 粘 贴 到 
R 主 程 序 并 运行 ， 可 以 查看 整个 程序 的 核心 数据 结构 一 一 数据 框 “my_fasta” 的 前 20 行内 容 。 


setwd("C:/workingdirectory"); 

fileloc<- "AE004437 .faa"; 

Imy_fasta<- readLines(fileloc) ; #11 

my. fasta<- data.frame(index, y, my. fasta); #22 
my. fasta[1:20,] 


从 图 3-5 中 ， 可 以 很 清楚 地 看 出 这 个 程序 的 总 体 思路 就 是 对 最 后 一 列 〈 列 名 是 
*my. fasta") 的 每 个 元 素 〈 对 应 读 入 的 fasta 文件 的 每 一 行 ) 进行 标注 ， 标 注 的 信息 保存 在 
第 一 列 “index”“1” 表 示 这 行 属于 第 1 条 序列 ,“2” 表 示 这 行 属于 第 2 条 序列 ， 以 此 类 推 。 
从 行 #11 到 行 #22 的 所 有 步骤 都 是 为 了 实现 这 一 目的 。 

运行 结果 : 
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> my fastali:20,] 


index y 
1 1 0 
2 1-1 
3 1-1 
4 1-1 
5 1-1 
6 1-1 
7 1-1 
8 2.0 
9 2-1 
10 2-1 
11 2-1 
12 2-1 
13 3 0 
14 3 -1 
15 3 -1 
16 3 -1 
17 3 -1 
18 3 -1 
19 3 -1 
20 4 0 


my fasta 
»9gi|10579650|gb]AAG18645.1| hypothetical protein VNG 0001H [Halobacterium sp. NRC-1] 
MIRRSRVGAGLAAIVLALAAVSAAAPIAGAQSAGSGAVSVIIGDVDVSPANPTTGIQVLITPSINNSGSA 
SGSARVNEVILRGDGLLATEDSLGRLGAGDSIEVPLSSTFTEPGDHQLSVHVRGLNPDGSVEYVQRSVYV 
TVDDRTSDVGVSARTITATNGSTDIQATITQYGTIPIKSGELQVVSDGRIVERAPVANVSESDSANVIFDG 
ASIPSGELVIRGEYTLDDERSTHTINTTILTYQPQRSADVALTGVEASGGGTTYTISGDAANLGSADAASV 
RVNAVGDGLSANGGYFVGKIETSEFATFDMTVQADSAVDEIPITVNYSADGQRYSDVVIVDVSGASSGSA 
TSPERAPGQQQKRAPSPSNGASGGGLPLFAKIGGAVAVIAIVVVVVRRWRNP 

»gi|10579651|gb|AAG18646.1| amino acid ABC transporter, ATP-binding protein [Halobacterium sp. NRC-1] 
MSIIELEGVVKRYETGAEIVEALKGVDFSAARGEMVIVVGPSGSGKSTMLNMIGLLDSPTAGSVILDGQD 
VIGFSEDERTEERRAELGFVFQSFHLLPMLTAVENVELPSMWDTSVDRHDRAVDLLERVGLGDRLTHTPG 
ELSGGQQQRVAIARSLINEPEILLADEPTGNLDQETGGTILTEMQRLTEEENIAVVAITHDTIQLEEFSDR 

AVNLVDGVLET 

»gi|10579652|gb|AAG18647.1| conserved hypothetical protein [Halobacterium sp. NRC-1] 
MAWRNLGRNRVRTALAALGIVIGVISIASMGMASAAINQQASAQLGDLGNKVSVTSGEDAEEYGITQAQV 
ERIDDLVSAGIVVEQKSDSTSLSSRAGTIVDVVIVIAVIEVAEPYNITSANPPETLHSGALLTNQTAETLG 
LGVGDPVKYDGSLYRIRGIITTTISRFGGFAELVVPLSAMADQDEYDIVDIYADSGSDAARIADRLDSEEN 
SYGRTEEKILEIRSTSDAREGVNNEMRTLKLGLLGIGSISLLVASVAILNVMLMSTIERRGEIGVLRAVG 
IRRGEVLRMILTEAMFLGAVGGLVGSLASLGVGAFIFDKITQNAMDVLVWPSSRYLVYGFLFAVFASLLS 
GLYPAWKAANDPPVEALGE 

»91|10579653|gb|AAG18648.1| hypothetical protein VNG 0005H [Halobacterium sp. NRC-1] 


图 3-5 ”函数 'seq_import' 的 核心 数据 结构 一 


如 果 我 们 再 运行 下 面 的 代码 , 并 再 次 查看 改变 后 的 “my_fasta” 的 前 20 行 数据 (图 3-6)， 
就 会 发 现 主要 的 变化 是 : 第 1 列 index 中 所 有 对 应 第 2 列 (“y”) 为 0 的 项 也 都 改 为 了 
0， 这 是 为 了 后 面 分 类 合并 做 准备 。 将 第 1 列 类 别 相同 的 部 分 所 对 应 的 第 3 列 数据 合并 到 一 


起 ， 类 别 
类 推 。 


“0” 是 所 有 序列 记录 的 描述 ， 类 别 “1” 是 第 一 条 序列 的 氨基 酸 序 列 全 长 ， 以 此 


my_fasta[my_fasta[, 2] == 0, 1] <- 0; 
my. fasta[1:20,] 
运行 结果 : 


> my_fasta[1:20,] 


index y 
1 0 0 
2 1-1 
3 1-1 
4 1-1 
5 1-1 
6 1-1 
7 1-1 
8 0 0 
9 2 -1 
10 2 -1 
11 2 =1 
12 2-1 
13 0 0 
14 3 -1 
15 3 -1 
16 3 -1 
17 3 -1 
18 3-1 
19 3 -1 
20 0 0 


my fasta 
»gi|10579650|gb|AAG18645.1| hypothetical protein VNG 0001H [Halobacterium sp. NRC-1] 
MTRRSRVGAGLAAIVLALAAVSAAAPIAGAQSAGSGAVSVTIGDVDVSPANPTTGIQVLITPSINNSGSA 
SGSARVNEVILRGDGLLATEDSLGRLGAGDSIEVPLSSTFTEPGDHQLSVHVRGLNPDGSVFYVQRSVYV 
TVDDRISDVGVSARTTATINGSTDIQATITQYGTIPIKSGELQVVSDGRIVERAPVANVSESDSANVIFDG 
ASIPSGELVIRGEYTLDDEHSTHTINTTLTYQPQRSADVALTGVEASGGGTTYTISGDAANLGSADAASV 
RVNAVGDGLSANGGYFVGKIETSEFATFDMTVQADSAVDEIPITVNYSADGQRYSDVVIVDVSGASSGSA 
TSPERAPGQOQKRAPSPSNGASGGGLPLFKXIGGAVAVIAIVVVVVRRWRNP 

»gi|10579651|gb|AAG18646.1| amino acid ABC transporter, ATP-binding protein [Halobacterium sp. NRC-1] 
MSIIELEGVVKRYETGAETVEALKGVDEFSAARGEMVIVVGPSGSGKSTMLNMIGLLDSPTAGSVILDGQD 
VIGESEDERTEERRAELGFVFQSFHLLPMLTAVENVELPSMWDTSVDRHDRAVDLLERVGLGDRLTHTPG 

" ELSGGQQQRVAIARSLINEPEILLADEPTGNLDQETGGTILTEMQRLTEEENIAVVAITHDTQLEEFSDR 
AVNLVDGVLHT 

»gi|10579652|gb|AAG18647.1| conserved hypothetical protein [Halobacterium sp. NRC-1] 
MAWRNLGRNRVRTALAALGIVIGVISIASMGMASAAINQOASAQLGDLGNKVSVTSGEDAEEYGITOQAQV 
ERIDDLVSAGIVVEQXSDSTSLSSRAGIVDVVIVIAVIEVAEPYNITSANPPETLHSGALLTNQTAETLG 
LGVGDPVKYDGSLYRIRGIITTITSRFGGFAELVVPLSAMADODEYDTVDiYADSGSDAARIADRLDSEEN 
SYGRTEEKILEIRSTSDAREGVNNEMRTLKLGLLGIGSISLLVASVAILNVMLMSTIERRGEIGVLRAVG 
IRRGEVLRMILTEAMFLGAVGGLVGSLASLGVGAFIFDKITQNAMDVLVWPSSKYLVYGFLFAVFASLLS 
GLYPAWKAANDPPVEALGE 

»gi|10579653|gb|AAG18648.1| hypothetical protein VNG 0005H [Halobacterium sp. NRC-1] 


图 3-6 ”函数 'seq_import' 的 核心 数据 结构 二 
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运行 下 面 代码 实现 同类 合并 , 并 再 次 查看 改变 后 的 “seq ”的 前 3 行 数据 ， 就 会 发 现 “0” 
包括 所 有 序列 的 注释 内 容 ,“1” 包 括 序列 的 全 部 氨基 酸 ,“2” 包 括 序列 2 的 全 部 氨基 酸 ( 结 
果 不 再 显示 )。 

seq<- tapply(as.vector(my. fasta[, 3]), factor(my. fasta[, 1]),paste, collapse ="", simplify = 
F);seq[1:3] 

seq[1:3] 


B. 函数 pattern_match' 


模式 匹配 这 部 分 的 一 个 核心 概念 就 是 正则 表达 式 。 字 符 串 模式 通常 用 正则 表达 式 表 示 ， 
本 例 中 的 “H..H{1,2}” 表 示 这 个 模式 由 1 个 组 氨 酸 (H) + 任意 2 个 氨基 酸 +1 个 或 2 个 组 氮 
酸 组 成 ， 符 合 这 个 定义 的 串 ， 就 会 匹配 。 另 外 一 个 模式 “[A-Z]” 表 示 所 有 的 A 到 Z 范围 内 
的 大 写字 母 。 正 则 表达 式 的 匹配 或 者 替换 会 调用 函数 “gregexpr” 和 “gsub”， 程 序 运 行 完 
毕 可 以 调用 函数 “cat” 向 屏幕 输出 提示 ， 这 几 个 函数 的 用 法 可 以 参考 附录 。 

程序 运行 后 得 到 一 个 含有 8 条 序列 信息 的 数据 框 变量 ， 这 个 数据 框 的 6 列 分 别 表示 了 
序列 的 Acc、 序 列 的 注释 信息 、 序 列 长 度 、 本 条 序列 包含 模式 的 位 置 (用 “,” 分 割 )、 本 条 
序列 包含 模式 的 数量 以 及 序列 内 容 ， 图 3-7 显示 了 前 5 列 内 容 。 


> hit sequencesc- pattern match(patvern -"E..E(1,2]", sequences = my sequences, hit num -2) 
£ 有 模 序 "8. ,Ht1， 2}" 超 过 2 个 的 所 有 和 蛋白 质 序列 已 写 入 当前 工作 目录 下 文件 'Hic , Sequences. fasta' 
DITE I TUE 以 下 序列 含有 模 序 "B. .8{1,2}" 的 数 号 超过 2 个 : 
Acc 
475 AAG19119.1 
513 AAG19157.1 
890 AAG19534.1 
917 AAG19561.1 
1337 AAG19981.1 
1569 AAG20213.1 
1623 AAG20267.1 
1638 AAG20282.1 


Desc 
475 »gi|10580203|gb|AAG19119.1| hypothetical protein VNG 0611H [Halobacterium sp. NRC-1] 
513 »gi|10580249|]gb|AAG19157.1|] cytochrome c oxidase subunit III [Halobacterium sp. NRC-1] 
890 »gi|10580690|gb|AAG19534.1| glutamyl-tRNA synthetase [Halobacterium sp. NRC-1) 
917 »gi|10580721|gb]AAG19561.1| membrane protein [Halobacterium sp. NRC-1] 
1337 »gi|10581208|gb|AAG19981.1| photolyase/cryptocnrome [Halobacterium sp. NRC-1] 
1569 »gi|10581480|gb|AAG20213.1| ATP-binding protein [Halobacterium sp. NRC-1] 
1623 »gi|10581542|gb|AAG20267.1| conserved hypothetical protein [Halobacterium sp. NRC-1] 
1638 »gi|10581559|gb|AAG20282.1| H+-transporting ATP synthase subunit I [Halobacterium sp. NRC-1] 
Length Position Hits 
475 326 26, 89, 203 3 
513 285 11, 164, 227 3 
890 586 121, 335, 459 3 
917 379 80, 135, 177, 282 4 
1337 462 92, 121, 167 3 
1569 273 80, 202, 249 3 
1623 325 17, 72, 281 3 
1638 722 315, 615, 635 3 


>| 


图 3-7 ”选中 序列 模式 匹配 后 所 包括 的 信息 
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C. 函数 'getAApercentage' 


这 部 分 的 核心 就 是 第 一 个 “for” 循 环 语句 ， 这 个 语句 每 次 处 理 一 条 序列 ， 统 计 这 条 序 
列 中 20 种 氨基 酸 的 百 分 含 量 ， 结 果 存 放 到 一 个 数据 框 变量 中 〈 图 3-8)。 该 数据 框 的 第 1 列 
是 所 有 氨基酸 的 类 型 ， 后 面 每 列 是 一 条 序列 中 的 各 类 型 氨基 酸 的 百分比 含量 。 这 个 计算 过 
程 是 最 开始 只 有 一 列 ， 每 次 循环 计算 后 添加 一 列 ， 直 到 全 部 序列 的 计算 工作 完毕 ， 再 添加 
一 列表 示 平 均 百 分 含量 。 


> ÀÀ percentage 
AA AAG19119.1 AAG19157.1 AAG19534.1 AAG19561.1 AAG19981.1 AAG20213.1 AAG20267.1 AAG20282.1 Mean 


1 A 3.6809816 11.5789474 10.2389078 7.6517150 15.8008658 13.1868132 10.153846 11.7728532 10.508116 
2 C 0.6134969 0.0000000 0.8532423 0.7915567 0.0000000 1.4652015 2.153846 0.0000000 0.734668 
3 D 7.0552147 3.1578947 11.6040956 8.9709763 12.1212121 11.3553114 9.846154 8.1717452 9.035325 
4 E 10.7361963 2.8070175. 9.0443686 4.4854881 《4,1125541 4.3956044 8.000000 7.4792244 6.382557 
5 F 3.6809816 8.4210526 3,2423208 2.9023747 2.8138528 3.6630037 3.692308 5.2631579 4.209881 
6 Œ 5.8282209 13.6842105 68.1911263 10.5540897 4.7619048 8.7912088 6.153846 9.9722992 8.492113 
7 H 5.2147239 3.8596491 3.4129693 5.5408971 4.5454545 44.7619048 4.615385 2.9085873 4.357446 
8 I 7.3619632 5.6140351 3.2423208 5.0131926 1,5151515 2.1978022 1.538462 3.7396122 3.777817 
9 K 6.1349693 0.7017544 1.7064846 3.4300792 1.0822511 1.8315018 1.846154 1.8005540 2.316719 
10 L 7.3619632 39.4736842 5.2901024 4.2216359 7.5757576 8.7912088 7.384615 12.0498615 7.768604 
11 M 1.8404908 2.1052632 2.9010239 3.9577836 0.6493506 1.0989011 2.461538 1.8005540 2.101863 
12 N 3.0674847 1.0526316 1.8771331 2.9023747 2.8138528 0.3663004 2.153846 1.2465374 1.935020 
13 P 4.2944785 2.1052632 6.1433447 7,6517150 £6.2770563 6.2271062 5.846154 4.0166205 5.320217 
14 Q 4.2944785 1.0526316 2.2184300 3.1662269 3.0303030 0.7326007 2.461538 1.9390582 2.361908 
15 R 5.8282209 3.1578947 58.5324232 4.4854881 8.6580087 6.9597070 8.307692 3.1855956 6.139379 
16 S 9.5092025 7.7192982 3.9249147 3.9577836 3.8961039 3.2967033 4.000000 5.9556787 5.282461 
17 T 4.6012270 5.2631579 3.7542662 $8.9709763 5.1948052 8.7912088 6.769231 5.9556787 6.162569 
18 V 4.6012270 10.5263158 9.2150171 7.3878628 $8.4415584 29.1575092 8.000000 $8.5872576 8.239593 
19 W 1.2269939 3.1578947 1.3651877 0.7915567 2.1645022 0.0000000 2.153846 0.8310249 1.461376 
20 Y 3.0674847 4.5614035 3.2423208 3.1662269 4,.5454545 2.9304029 2.461538 3.3240997 3.412366 
> 


图 3-8 ”选中 序列 的 20 种 氨基 酸 百分比 含量 


D. 函数 'seq_alignment' 


序列 两 两 对 比 可 以 得 到 序列 两 两 之 间 的 相似 性 得 分 ， 这 是 下 一 步 构 建 距离 矩阵 和 进化 
树 的 基础 。 本 程序 的 核心 是 通过 内 外 两 重 循环 反复 调用 外 部 函数 来 计算 两 两 比 对 得 分 。R 
有 自己 的 函数 可 以 完成 这 个 功能 ， 这 里 之 所 以 调用 外 部 函数 ， 是 为 了 介绍 R 与 其 他 程序 交 
互 的 一 种 很 重要 的 方式 ， 即 操作 系统 调用 可 执行 文件 。 在 Windows 操作 系统 上 ， 其 调用 格 
式 就 是 “shell “命令 行 ' )” 在 Linux RAE, “system 〈 命令 行 :)”。 值 得 注意 的 是 ， 采 
用 这 种 方式 编写 的 R 语言 ， 为 了 获得 操作 系统 调用 的 功能 而 损失 了 程序 的 跨 平 台 能 力 。 图 
3-9 是 得 到 的 两 两 比 对 的 结果 文件 。 
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[IIilllllrifrfcllllllflclffcfffilflllflllccfcfclcll 
# Program: needle 

# Rundate: Wed 5 Dec 2012 12:12:19 

# Commandline: needle 

[-asequence] fileli 

[-bsequence] fiie2 

[-outfile] stdout 

-gapopen 10.0 

-gapextend 0.5 

# Align format: srspair 

# Report file: stdout 
TEEREEEEEEEETEEREBESBSRISRSESRIIERETEEEREGRES 


Ie k 可 H H 


t 

t 

# Aligned sequences: 2 

$ 1: AAG19119.1 

# 2: AAG20267.1 

# Matrix: EBLOSUM62 

# Gap_penalty: 10.0 

# Extend penalty: 0.5 

t 

# Length: 419 

$ Identity: 74/419 (17.7%) 

$ Similarity: 111/419 (26.55) 

# Gaps: 187/419 (44.6%) 

# Score: 35.5 

#======================================= 

AAG19119.1 —— ——— Pr ÓÀ CAMCN MGITKQ 
"Hr 

AAG20267.1 1 MSESDGPKQVDDPDYHHENHTAAQTCGWIANAMRGEGICYKHAFYGIRSH 


图 3-9 选中 序列 的 两 两 对 比 结果 


前 面 第 二 章 介 绍 了 构建 进化 树 往往 需要 多 重 比 对 而 不 是 两 两 比 对 。 这 里 之 所 以 用 两 两 
比 对 ， 除 了 速度 方面 的 考虑 外 ， 更 重要 的 是 多 重 比 对 对 于 含有 重复 序列 (包括 简单 重复 序 


列 ) 的 部 分 处 理 的 结果 不 是 很 理想 ， 更 多 的 内 容 请 参考 相关 资料 。 


El. 函数 'getScoreMatrix' 


这 部 分 主要 是 通过 分 析 上 面 得 到 的 比 对 结果 文件 , 得 到 一 个 8*8 的 得 分 矩阵 “scorem”， 
作为 “getScoreMatrix” 函 数 的 返回 值 。 后 面 再 由 函数 “as.dist” 将 得 分 矩阵 “scorem” 转 换 
为 一 个 下 三 角 距 离 和 矩阵“scorem.dist?， 用 来 聚 类 8 条 序列 。 聚 类 函数 “hclust” 先 产生 一 个 
对 象 “hc”， 包 括 了 聚 类 的 结果 ,“plot” 函 数 用 来 显示 聚 类 结果 “hc”( 图 3-10)。 从 图 3-10 
可 以 看 到 8 条 序列 的 聚 类 结果 ， 需 要 注意 的 是 虽然 这 个 图 和 后 面 的 进化 树 的 图 非常 相似 ， 
但 是 两 者 并 不 相同 ， 构 建 进化 树 需要 按照 一 定 的 算法 来 应 用 距离 矩阵 ， 代 表 了 普通 聚 类 不 


具备 的 生物 学 意义 。 
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Distance Tree Based on Needle All-Against-All Comparison 
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AAG19157.1 
AAG19119.1 
AAG19561.1 
AAG19534.1 
AAG20267.1 
AAG20282.1 
AAG19981.1 
AAG20213.1 


sequence name 
hclust (*. "complete") 


Bj3-10 ”选中 序列 的 聚 类 图 
E2. 函数 'infile_produce' 


这 个 函数 根据 前 面 得 到 的 得 分 矩阵 ， 得 到 符合 PHYLIP 软件 包 要 求 的 输入 文件 “infile” 
(图 3-11)。 输 入 文件 第 一 行 是 序列 的 个 数 ， 下 面 是 一 个 8*8 的 距离 矩阵 。 


a 
c 


AAG19119.1 0 0.1666667 0.0238095  0.0194175  0.0333333 0.047619 0.028169 0.0222222 
AAG19157.1 0.1666667 0  0.0487805 0.25 0.0487805 0.0625 20.0571429  0.0136986 
AÀG19534.1 0.0238095 0.0487805 0  0.0126582  0.0133333  0.0178571  0.0124224 0.0129032 
AAG19561.1 0.0194175 0.25 0.0126582 0  0.0165289  0.0133333  0.0526316  0.0212766 
AAG19981.1 0.0333333 0.0487805  0.0133333  0.0165289 0  0.0112994  0.0217391  0.0119048 
AAG20213.1 0.047619 0.0625 0.0178571  0.0133333  0.0112994 0  0.0263158  0.0125786 
AAG20267.1 0.028169 0.0571429  0.0124224  0.0526316  0.0217391  0.0263158 0  0.0166667 
AAG20282.1 0.0222222  0.0136986  0.0129032  0.0212766  0.0119048  0.0125786  0.0166667 0 


图 3-11 选中 序列 的 infile 


3.3 用 R 包 (Bioconductor) 再 实现 课题 (方法 一 ) 


3.3.1 重新 设计 数据 处 理 流 程 和 全部 函数 


在 3.2 中 ， 我 们 用 基本 R 包 实 现 了 课题 ， 不 需要 安装 任何 扩展 R 包 就 可 以 直接 运行 ， 
本 节 和 下 一 节 内 容 介 绍 如 何 使 用 Bioconductor 的 几 个 扩展 R 包 来 重新 编写 3.2.1 中 的 R 程 
Æ, 通过 对 比 ， 使 读者 了 解 Bioconductor 扩展 包 独 特 的 编程 思想 。 由 于 Bioconductor 扩展 
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包 数 量 巨 大 、 内 容 繁多 ， 因 此 有 多 个 包 可 以 实现 同样 的 功能 。 为 了 保证 学 习 的 连贯 性 ， 根 
据 内 容 逐 步 加 深 的 原则 ， 这 一 节 先 对 数据 处 理 流 程 的 前 面 几 个 步骤 做 些 变动 ， 仅 仅 调用 扩 
展 包 “Biostrings” 重 新 编写 函数 ， 替 换 步骤 A、B、C、D、El 中 的 原 有 函数 ， 并 保持 其 他 
步骤 不 变 : 

A. 函数 bio_seq_import(myfileloc) 

B. 函数 bio_pattern_match(pattern, sequences, hit num) 

C. 函数 bio getAApercentage(sequences) 

D+E1. 函数 bio alignAndScore(sequences) 

修改 后 的 流程 图 见 图 3-12， 改 变 的 地 方 用 阴影 表示 : 












xr 
AE004437 faa 








对 象 
my_sequences 


对 象 
hit_sequences 


» TOS 


Score matrix 


EX | 


| 


图 3-12” 例 3-2 数 据 处 理 流 程 图 


A. 定义 序列 导入 函数 bio_seq_import' 


bio_seq_import<- function(input file) { 
# 读 入 fasta 文件 ， 存 入 对 象 my_fasta。 
my. fasta <- read.AAStringSet(input_file); 


# 从 my. fasta 第 1 列 的 注释 行 中 提取 序列 的 ID(Accession Number). 
Acc<- gsub(".*gbW(.*)W.*", "WI", as.character(my. fasta[, 1]), perl = T); 


# 修改 my, fasta 对 象 的 names 属性 。 


names(my fasta)«-Acc; 
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my. fasta; 


B. 定义 模式 匹配 函数 bio_pattern_match' 


bio pattern match«- function(pattern, sequences, hit num) { 
# 从 sequences 对 象 中 获取 蛋白 质 序列 的 内 容 。 


seqs = as.character(sequences); 


# 获取 正则 表达 式 pattern 表示 的 模 序 在 所 有 序列 中 出 现 的 位 置 (未 找到 匹配 将 返回 -1)， 
所 有 位 置 存 入 一 个 列表 对 象 pos，perl=T 表示 兼容 perl 的 正则 表达 式 格式 。 
pos«- gregexpr(pattern, segs, perl = T); 


# lapply 函数 调用 自 定义 函数 function, WHE pos 中 的 每 一 个 元 素 ， 计 算 pattern 在 每 条 
序列 中 匹配 的 个 数 ， 再 由 unlist 函数 将 结果 转变 为 向 量 。 
hitsv«- unlist(lapply(pos, function(x) if (x[1] == -1) (0) else {length(x)})); 


# 找 出 匹配 次 数 大 于 hit num 的 序列 ， 并 将 大 写 形式 替换 为 小 写 ，gsub 中 第 一 个 参数 
[A-Z] 匹 配 任意 大 写字 母 ,“NLN1” 表 示 将 前 面 小 括号 中 匹配 的 任意 字母 替换 为 其 小 写 形式 。 

tag <- gsub("([A-Z]", "WLMI", as.character(sequences[hitsv > hit num]), perl = T, 
ignore.case = T); 


# 为 模 序 pattern 加 上 小 括号 ， 以 适合 perl 正则 表达 式 格式 ， 方 便 下 面 使 用 。 


pattern2 = paste("(", pattern, ")", sep 2""); 


# 将 tag 序列 中 和 模 序 pattern 匹配 的 部 分 替换 为 大 写 ， 原 理 同 上 ,“NUN1” 表 示 替 换 为 
大 写 。 


tag<- gsub(pattern2, "NUMI", tag, perl = T, ignore.case = T); 


# 生成 新 的 AAStringSet X1 2 export 保存 选中 的 序列 信息 《〈 大 小 写 混 合 表示 氨基 酸 )。 
export <- AAStringSet(tag); 


# 输出 对 象 export 到 文件 Hit sequences.fasta (fasta 文件 格式 )。 
write.XStringSet(export, file="Hit sequences] .fasta"); 


# 输出 提示 信息 。 
cat(" 含 有 模 序 \"", pattern, "ERIT", hit num, "个 的 所 有 和 蛋白 质 序 列 已 写 入 当前 工作 目录 
下 文件 'Hit_sequences.fasta”", "n", sep 2""); 
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# 输出 提示 信息 。 
cat(" 极 端 嗜 盐 古 菌 蛋白 组 中 以 下 序列 含有 模 序 \"…"，pattern，"" 的 数量 超过 2 个 : "，"\n"， 


Sep ="); 


# 输出 选中 的 序列 。 
print(export); 


8 生成 新 的 AAStringSet X1 2 export 保存 选中 的 序列 信息 《大 写 表示 氨基 酸 )。 
selected «- AAStringSet(as.character(sequences[hitsv > hit num])); 


# 返回 选中 序列 。 
selected; 
} 


C. 定义 氨基 酸 含量 统计 函数 bio_getAApercentage' 


bio_getAApercentage<- function(sequences) { 

# 生成 一 个 包含 20 种 标准 氨基 酸 单 字母 简写 的 数据 框 AA。 

AA x- cA", "C", DARES "E*,"G'S "H", "T, "K", "E^, "M", "NU, "P", "Q", "R'"Sn mp". 
MUNIRI Nye 

# 得 到 每 条 序列 中 20 种 氨基 酸 出 现 的 次 数 。 

AApercentage <- letterFrequency(sequences, AA); 


# 次 数 /序列 长 度 ， 得 到 每 条 序列 中 20 种 氨基 酸 的 百 分 含量 。 
AApercentage <- t(AApercentage/width(sequences)* 100); 


# 修改 数据 框 AApercentage 各 列 的 名 字 。 


colnames(AApercentage) <- names(sequences); 


# 下 面 代码 与 函数 getAApercentage 中 相同 ， 参 看 例 3-1 中 的 注释 。 

AApercentage<-data.frame(AApercentage,Mean=apply(AApercentage[,1:dim(AApercentage) 
[2]], 1, mean, na.rm = T)); 

write.csv(AApercentage, file ="AApercentage.csv", row.names = F, quote = F) ; 

cat(" 氨 基 酸 百分比 含量 已 经 写 入 当前 工作 目录 下 的 文件 'AApercentage.csv", "\n"); 

AApercentage; 

} 
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D. 定义 两 两 比 对 和 函数 bio_alignAndScore' 


bio_alignAndScore<- function(sequences) ( 

# 定义 一 个 空 的 得 分 和 矩阵， 初始 值 都 为 0。 

scorem=matrix(rep(0,length(sequences)*length(sequences)),nrow = length(sequences), ncol 
= length(sequences)); 

# 下 面 循环 每 次 都 是 对 比 两 条 序列 ， 结 果 存 入 得 分 矩阵 scorem. 

for (i in 1:length(sequences)) ( 

for (j in 1:length(sequences)) ( 

# 调用 pairwiseAlignment 函数 两 两 对 比 

scorem[ij]-pairwiseAlignment(sequences[[i]], sequences[[j]]， type = "overlap", 
substitutionMatrix = "BLOSUM62", gapOpening = 9.5, gapExtension = 0.5,scoreOnly-T) 

) 

) 

cat(" 程 序 完 成 所 有 序列 的 两 两 比 对 \n"); 

} 


3.3.2 课题 实现 


首先 ， 安 装 Bioconductor 扩展 包 “Biostrings”: 
source("http://bioconductor.org/biocLite.R") ; 
biocLite("Biostrings") ; 

biocLite(" ape") ; 


A. 利用 函数 bio_seq_import 导 入 极端 嗜 盐 古 菌 的 蛋白 质 组 


library("Biostrings") 
my. file <- "AE004437 faa" 


my. sequences <- bio seq import(input file = my. file) 


B. 调用 函数 bio_pattern_match' 寻 找 模 序 


hit sequences <- bio_pattern_match(pattern ="H..H{1,2}", sequences = my. sequences, 
hit num =2) 


C. 调用 函数 ' bio_getAApercentage' 统 计 和 氨基 酸 百 分 含量 


AA_percentage<- bio_getAApercentage(Sequences = hit_sequences) 
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D. 调用 函数 'alignAndScore' 得 到 两 两 比 对 得 分 矩阵 
Score matrix«- bio alignAndScore(sequences = hit sequences) 


3.3.3. i& 59 3E IE 55 d t 


通过 重 写 A 到 DD 四 个 函数 ， 对 比 原 有 的 函数 ， 可 以 看 到 下 列 主 要 的 变化 和 特点 : 

(1) Bioconductor 扩展 包 针 对 每 一 种 生物 信息 数据 格式 的 文件 都 有 专门 的 函数 负责 输 
入 、 输 出 和 格式 转换 。 例 如 “Biostrings” 包 中 函数 “read.AAStringSet”， 可 以 自动 识别 fasta 
格式 的 文件 ， 不 需要 用 户 自行 编程 解析 文件 格式 ， 大 大 减少 了 工作 量 ;“write.XStringSet” 
函数 可 以 将 “AAStringSet” 对 象 直 接 写 入 fasta 格式 的 文件 作为 输出 。 

(2) 对 于 每 种 基本 的 序列 分 析 算 法 或 者 过 程 Bioconductor 都 有 基本 的 函数 来 完成 ， 读 
者 只 需要 了 解 输入 、 输 出 和 调用 参数 即 可 。 例如 “Biostrings” 包 中 函数 “pairwiseAlignment” 
可 以 自动 完成 序列 两 两 比 对 ， 并 且 输 出 比 对 的 得 分 。“letterFrequency” 函 数 统计 序列 中 各 种 
类 型 字母 的 出 现 频率 。 

(3) 因此 ， 简 单 来 说 ，Bioconductor 编程 就 是 将 已 有 的 输入 输出 和 数据 处 理 模块 按照 设 
计 好 的 流程 贯穿 起 来 。 


3.4 HRIR/& (Bioconductor) 再 实现 课题 (方法 二 ) 


3.4.1 重新 设计 数据 处 理 流 程 和 全 部 函数 


在 3.2 中 , 我 们 提 到 过 两 个 问题 : 我 们 使 用 了 两 两 比 对 的 方法 得 到 多 个 序列 之 间 的 相互 
关系 ， 而 不 是 多 重 比 对 ; 构建 和 显示 进化 树 调用 了 外 部 程序 ， 而 没有 使 用 R 扩展 包 。 这 里 ， 
我 们 通过 多 重 比 对 方法 (步骤 El1) 得 到 多 个 序列 之 间 的 相互 关系 ， 并 用 R 扩展 包 构 建 和 实 
现 进 化 树 。 l i 

多 重 比 对 与 两 两 比 对 , 对 构建 进化 树 的 影响 在 3.2.3 简单 提 到 过 , 这 里 不 做 进一步 讨论 。 
与 调用 外 部 程序 相 比 ， 全 部 用 R 编程 ， 可 以 使 中 间 结 果 和 数据 传递 更 简便 、 效 率 高 、 时 间 
短 。 因 此 ， 这 一 节 ， 我 们 调用 两 个 R 的 扩展 包 “seqinr” 和 “ape” 来 实现 进化 树 构建 与 显 
示 。 这 一 节 仅 仅 替 换 步 又 D、E1、E2、E3 和 EA 中 的 原 有 函数 ， 保 持 其 他 步骤 不 变 : 

D. ClustalW2 程序 ; 

El. 函数 read.alignment 和 函数 printMultipleAlignment; 

E2. 函数 cleaned aln; 

E3. 函数 unrootedNJtree; 

E4. 函数 rootedNJtree. 

修改 后 的 流程 图 见 图 3-13， 改 变 的 地 方 用 阴影 表示 : 
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文件 - 
AE004437.faa 


(5 —] 





AApercentage 


图 3-13” 例 3-3 数 据 处 理 流程 图 


El. 定义 函数 read.alignment 和 'printMultipleAlignment 


实现 如 下 功能 : 

由 “read.alignment” 读 入 比 对 结果 文件 (由 R 包 直接 提供 ); 
名 显示 多 重 比 对 结果 。 

R 语言 代码 如 下 : 


printMultipleAlignment <- function(alignment, chunksize=60) 

1 

# 此 函数 需要 Biostrings 扩展 包 。 

require("Biostrings") ; 

4 MXZ alignment (H read.alignment iE AO). 中 得 到 序列 总 数 。 

numseqs <- alignment$nb ; 

# 得 到 所 有 序列 比 对 在 一 起 时 的 序列 长 度 “= 原始 序列 +indel)。 

alignmentlen <- nchar(alignment$seq[[1]]) ; 

H 设 定 显示 时 ， 每 个 新 行 起 始 位 置 对 应 序列 中 的 实际 位 置 ， 如 果 设 定 每 行 最 多 不 能 超 
过 60bp 〈chunksize=60)， 则 起 始 位 置 是 1，61，121 ...... 这 样 ， 一 个 chunk 包括 了 所 有 序 
列 的 一 段 不 超过 60bp 的 序列 。 

starts <- seq(1, alignmentlen, by-chunksize) ; 

# 得 到 chunk 总 数 。 

n <- length(starts) ; 

# 定义 两 个 空 向 量 。 


加 72 有 语言 与 Bioconductor 生物 信息 学 应 用 


aln <- vector(); 

8 每 个 元 素 是 一 条 序列 。 

lettersprinted <- vector(); 

# 对 应 新 行 中 最 后 一 位 在 原始 行 中 的 位 置 这 个 循环 完全 可 以 用 向 量 运 算 解决 。 
for (j in 1:numseqs) 

{ 

# 每 次 提取 一 条 序列 。 

aln[j] <- alignment$seq[[j]] ; 

# 初始 化 向 量 。 

lettersprinted[j] <- 0 ; 

} 

# 每 次 循环 处 理 一 个 chunk. 

for (iin 1:n) { 

# 每 次 循环 处 理 一 条 序列 。 

for (j in 1:numseqs) 

{ 

# 每 次 取 一 条 序列 。 

alnj <- aln[j] ; 

# 取 该 序列 第 i 个 chunk 长 度 的 片段 。 

chunkseqjaln <- substring(alnj, starts[i], starts[i]+chunksize-1) ; 
# 序列 中 的 字母 全 部 转换 为 大 写 。 

chunkseqjaln <- toupper(chunkseqjaln) ; 

# 统计 有 多 少 “-”。 

gapsj <- countPattern("-",chunksegjaln) ; 

# chunk 的 长 度 减 去 “-” 就 是 DNA 字母 数量 ， 逐 渐 累 加 ， 即 可 对 应 到 原始 序列 中 的 位 


lettersprinted[j] <- lettersprinted[j] + chunksize - gapsj; 
# 打印 chunk 中 的 片段 ， 然 后 加 上 最 后 一 位 碱 基 在 原始 序列 中 的 位 置 。 
print(paste(chunksegjaln,lettersprinted[j])) ; 
} 
# 每 个 chunk 打印 完毕 ， 需 要 空 一 行 ， 分 割 多 个 chunk。 
print(paste( )) ; 
} 
} 


E2. 定义 函数 'cleaned_aln' 


实现 如 下 功能 : 去 除 多 重 比 对 结果 中 质量 非常 低 的 位 置 ， 保 证 剩 下 的 每 个 位 置 的 非 空 
位 核 苷 酸 残 基 大 于 一 定 比例 ， 并 且 每 个 位 置 上 相同 残 基 也 要 大 于 一 定 比例 。 


第 三 章 RR 在 生物 信息 学 中 的 简单 应 用 73 四 


R 语言 代码 如 下 : 


cleanAlignment <- function(alignment, minpcnongap, minpcid) 

{ 

# 保留 一 份 变量 alignment 的 copy， 用 于 存储 更 新 后 的 信息 ， 并 作为 返回 值 。 
newalignment <- alignment; 

# 从 对 象 alignment (H read.alignment 读 入 ) 中 得 到 序列 总 数 。 

numseqs <- alignment$nb; 

# 得 到 所 有 序列 比 对 在 一 起 时 的 序列 长 度 〈= 原 始 序列 +indel)。 

alignmentlen <- nchar(alignment$seq[[1]]) ; 


# 把 newalignment 对 象 中 所 有 序列 置 空 。 
for (j in 1:numseqs) ( newalignment$seq[[j]] <- "" ); 


# 循环 1 开始 ， 每 次 循环 处 理 对 齐 序列 中 的 一 个 位 置 。 

for (i in 1:alignmentlen) 

{ 

# 定义 变量 nongap 记录 该 位 置 gap 总 数 ， 并 初始 化 。 

nongap <- 0; 

# 每 次 循环 处 理 一 条 序列 中 的 该 位 置 所 有 对 齐 的 残 基 。 

for (j in 1:numseqs) 

{ 

# 取 第 j 条 序列 的 所 有 残 基 。 

seqj <- alignment$seq[[j]]; 

# 只 截取 第 j 条 序列 第 i 个 位 置 的 残 基 。 

letterij <- substr(seqj,i;i); 

# 如 果 出 现 不 是 “-” nongap 总 数 就 加 1。 

if (letterij != "-") ( nongap <- nongap + 1]; 

) 

8 第 i 个 位 置 的 nongap 总 数 除 以 序列 数量 ， 得 到 nongap 的 百分比 。 

pcnongap <- (nongap*100)/numseqs; 

# 如 果 某 个 位 置 的 nongap 百分比 含量 大 于 等 于 阔 值 minpcnongap。 

# 条 件 判 断 1 开始 。 

if (pcnongap >= minpcnongap) 

{ 

# 满足 第 一 个 条 件 ， 则 还 需要 看 是 否 满足 第 2 个 条 件 。 

# 定义 两 个 变量 ， 第 1 个 记录 两 两 残 基 对 总 数 ， 第 2 个 记录 相同 残 基 对 的 数量 ， 并 初 
始 化 。 
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numpairs <- 0; numid <- 0; 
# 下 面 两 重 循环 用 于 第 i 个 位 置 上 所 有 残 基 ， 两 两 比较 。 
for (j in 1:(numseqs-1)) 
{ 
# 只 截取 第 j 条 序列 第 i 个 位 置 的 残 基 。 
seqj <- alignment$seq[[j]]; 
# 只 截取 第 j 条 序列 第 i 个 位 置 的 残 基 。 
letterij <- substr(seqj,i,i); 
# 再 取 第 k 条 序列 第 i 个 位 置 的 残 基 ， 逐 个 与 第 j 条 i 位 置 比较 。 
for (k in (j--1):numseqs) 
{ 
seqk «- alignment$seq[[k]]; 
letterkj <- substr(seqk,i,i); 
# 再 取 第 k 条 和 j 条 都 不 是 gap 的 。 
if (letterij != "-" && letterkj != "-") 
{ 
# 两 两 残 基 对 总 数 计数 增加 1 次 。 
numpairs <- numpairs + 1; 
3 如 果 这 对 残 基 相 同 ， 相 同 残 基 对 的 计数 加 1。 
if (letterij == letterkj) ( numid <- numid + 1]; 
} 
} 


) 
# 相同 残 基 对 除 以 两 两 残 基 对 总 数 ， 得 到 比例 。 
pcid <- (numid*100)/(numpairs); 
# 条 件 判断 2 开始 ， 如 果 上 面 的 比例 大 于 阔 值 。 
if (pcid >= minpcid) 
{ 
# 就 把 第 i 位 置 上 ， 所 有 序列 相应 的 残 基 依次 写 入 ， 否 则 就 丢弃 该 位 点 。 
for (j in 1:numseqs) 
{ 
seqj <- alignment$seq[[j]]; 
letterij <- substr(seqj,i,i); 
newalignmentj <- newalignment$seq[[j1]; 
newalignmentj <- paste(newalignmentj,letterij,sep-""); 
newalignment$seq[[j]] <- newalignmentj; 
} 
} 
# 条 件 判 断 2 结束 。 
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} 
# 条 件 判 断 1 结束 。 
} 
# 循环 1 结束 。 


return(newalignment); 


E3. 定义 函数 unrootedNJtree' 


实现 如 下 功能 : 

用 邻 位 相连 法 CNeighbor-joining) 构建 进化 树 〈 无 根 类 型 ); 
人 @ 显 示 构 建 的 进化 树 。 

R 语言 代码 如 下 : 


unrootedNJtree <- function(alignment,type) 

{ 

# 这 个 函数 需要 ape 和 seqinR 扩展 包 。 
require("ape"); 

require("seqinr"); 

# 定义 一 个 函数 ， 注 意 这 个 新 知识 点 ， 是 函数 内 定义 函数 。 
makemytree <- function(alignmentmat) 

{ 

# as 开头 的 函数 都 是 格式 转换 。 

alignment <- ape::as.alignment(alignmentmat); 
8 如 果 序列 类 型 是 蛋白 质 。 

if (type == "protein") 

{ 

# 从 比 对 结果 对 象 中 得 到 一 个 两 两 距离 矩阵 。 
mydist <- dist.alignment(alignment); 

} 

# 如 果 序 列 类 型 是 DNA。 

else if (type == "DNA") 

{ 

# as 开头 的 函数 都 用 于 格式 转换 。 
alignmentbin <- as.DNAbin(alignment); 


# 从 比 对 结果 对 象 中 得 到 一 个 两 两 距离 矩阵 。 
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mydist <- dist.dna(alignmentbin); 

} 

# 用 邻 位 相连 法 (Neighbor-joining) 构建 进化 树 对 象 。 
mytree <- nj(mydist); 

# 将 构建 的 进化 树 对 象 返回 。 

return(mytree); 

) 

# as 开头 的 函数 都 用 于 格式 转换 。 

mymat  «-as.matrix.alignment(alignment); 

# 调用 上 面 定义 的 函数 构建 进化 树 。 

mytree <- makemytree(mymat); 

# 对 构建 的 进化 树 做 自 举 〈(bootstrap〉 分 析 。 
myboot <- boot.phylo(mytree, mymat, makemytree); 
# 画 进化 树 ， 类 型 是 无 根 树 。 
plot.phylo(mytree,type-"u"); 

# 在 画 好 的 进化 树 上 显示 自 举 值 。 
nodelabels(myboot,cex-0.7); 

# 把 自 举 值 设 定 为 节点 的 标签 。 
mytree$node.label <- myboot; 

# 返回 构建 的 进化 树 〈 对 象 )。 
return(mytree); 

) 


E4. 定义 函数 rootedNJtree' 


@ 用 邻 位 相连 法 C(Neighbor-joining) 构建 进化 树 〈 有 根 类 型 ); 
@@ 显 示 构 建 的 进化 树 。 
R 语言 代码 如 下 : 


rootedNJtree <- function (alignment, theoutgroup, type) 

{ 

# 本 函数 大 部 分 代码 与 unrootedNJtree 函数 相同 ， 因 此 只 注释 不 同 的 语句 。 
require("ape"); 

require("seqinr"); 


# 定义 一 个 函数 ， 多 了 一 个 参数 ， 用 于 指定 哪 条 序列 来 充当 根 。 
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makemytree <- function (alignmentmat, outgroup= theoutgroup") 
{ 
alignment <- ape::as.alignment(alignmentmat); 
if (type == "protein") 
{ 
mydist <- dist.alignment(alignment); 
} 
else if (type == "DNA") 
{ 
alignmentbin <- as.DNAbin(alignment); 
mydist <- dist.dna(alignmentbin); 
} 
mytree <- nj(mydist); 
s 这 里 需要 指明 哪 条 序列 作为 根 。 
myrootedtree <- root(mytree, outgroup, r=TRUE); 
return(myrootedtree); 
} 
mymat <- as.matrix.alignment(alignment); 
# 这 里 函数 调用 ， 也 多 了 一 个 参数 。 
myrootedtree <- makemytree(mymat, outgroup=theoutgroup); 
myboot <- boot.phylo(myrootedtree, mymat, makemytree); 
# 画 进 化 树 ， 类 型 是 有 根 树 。 
plot.phylo(myrootedtree,type-"p"); 
nodelabels(myboot,cex-0.7); 
myrootedtree$node.label «- myboot; 
return(myrootedtree); 


3.4.2 ”课题 实现 


首先 ， 从 例 3-1 流程 中 得 到 的 序列 文件 “Hit_sequences.fasta” 开 始 ， 登 录 序 列 多 重 比 
对 程序 ClustalW2 所 在 的 网 站 (http://www.ebi.ac.uk/Tools/msa/clustalw2/) 提交 该 数据 ， 得 到 
结果 后 以 格式 文件 下 载 得 到 结果 文件 “ hit_sequences.clustalw”， 保 存 到 工作 目录 
“C:\workingdirectory ". 然后 ， 安 装 扩展 包 “seqinr” 和 扩展 包 “ape”: 


install.packages(seqinr ); 
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install.packages('ape"); 
El. 读 入 多 重 对 比 结果 并 显示 ， 供 人 工 查看 


library('seqinr') 
hit aln <- read.alignment(file = "Hit_sequences.clustalw", format = "clustal"); 
printMultipleAlignment(hit_aln, 60) 


E2. 去 除 多 重 比 对 中 的 低 质量 区 
cleaned_aln <- cleanAlignment(hit_aln, 25, 25) 
E3. 根据 多 重 比 对 结果 绘制 无 根 树 


` install.packages('ape') 
library('ape') 
unrooted_tree <- unrootedNJtree(cleaned_aln,"protein") 


EA. 根据 多 重 比 对 结果 绘制 有 根 树 


rooted tree <- rootedNJtree(cleaned aln, "AAG19157.1", "protein") 
3.4.3 源 代 码 详解 与 小 结 


在 例 3-3 中 ， 我 们 利用 扩展 包 “seqinr” 和 扩展 包 “ape” 重 新 实现 了 构建 进化 树 的 
功能 。 多 重 比 对 程序 ClustalW2 得 到 的 比 对 结果 文件 "Hit_ sequences.clustalw ”的 “clustalw” 
格式 非常 常见 ， 扩 展 包 “seqinr” 中 的 read.alignment 函数 可 以 自动 识别 这 种 格式 ， 并 把 
结果 存 入 一 个 对 象 。 这 是 非常 重要 的 R 编程 习惯 ,专门 的 函数 处 理 输入 类 型 , 存 入 对 象 ， 
以 备 下 一 步 继续 处 理 。 

我 们 自己 动手 写 了 2 个 函数 来 处 理 多 重 比 对 数据 ,“printMultipleAlignment” 可 以 根 
据 用 户 需 要 来 按照 参数 指定 的 长 度 〈 如 60) 来 控制 每 行 输出 的 序列 ;“cleanAlignment” 
可 以 去 除 一 些 比 对 的 低 质 量 位 点 ， 不 仅 可 以 减少 计算 量 ， 还 可 以 提高 进化 树 计算 的 准确 
BE. 读者 可 以 输入 对 象 “cleaned_aln” 的 名 称 加 回 车 , 查看 去 除 后 的 比 对 结果 (图 3-14)。 
函数 “cleanAlignment” 中 算法 的 思路 基于 最 基本 的 矩阵 运算 ， 即 把 每 条 序列 看 作 一 行 ， 
每 个 位 点 看 作 一 列 ; 外 循环 是 列 ， 每 次 处 理 一 列 ， 内 循环 中 处 理 一 列 中 的 所 有 行 。 这 个 
算法 很 简单 ， 但 是 这 样 逐个 处 理 和 矩阵 中 每 个 元 素 的 编程 方式 并 不 是 R 鼓励 的 ，R 的 习惯 
还 是 向 量 运算 ， 一 次 至 少 处 理 一 行 或 一 列 ， 不 仅 使 程序 简洁 ， 还 可 以 从 底层 优化 ， 提 高 
速度 。 这 里 之 所 以 这 么 编写 程序 ， 主要 为 了 进一步 介绍 一 下 R 的 语法 ， 并 且说 明 R 对 于 
更 低级 的 编程 也 是 支持 的 。 

函数 “unrootedNJtree” 和 “rootedNJtree” 都 是 基于 “ape” 扩 展 包 来 构建 进化 树 的 ， 
两 者 都 可 以 自动 识别 对 比 结果 .对象 )， 而 不 必 像 例 3-1 那样 必须 先 计 算 距 离 矩 阵 ， 编 
程 更 加 方便 和 灵活 。 两 个 函数 构建 进化 树 的 算法 都 是 邻 位 相连 法 (Neighbor-joining)， 前 
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者 是 无 根 树 ， 后 者 是 有 根 树 。 构 建 有 根 树 时 ， 我 们 指定 的 序列 “AAG19157.1”， 只 是 用 
于 程序 演示 ， 没 有 实际 的 生物 学 意义 。 


> cleaned ain 
$nb 
[1] 8 


$nam 
[1] "AAG19534.1" "AAG20213.1" "AAG19981.1" "AAG20267.1" "AAG19561.1" "AAG20282.1 
[7] "AAG19157.1" "AAG19119.1" 


S$seq 
$seq[[11] 
[1] "drraaggagiselladldegdpaderpvrgtykrafvdekpdlgfdaegptvtddswfsgseygtadpg-" 


Sseq[[21] 
as g--vpdd----vg---tadsg-" 


Sseqt [31] 
[1] "—-—————————— hqglrdlhagd-vddsparaayrrdlvdevpalefdang--yppd----hdaaavwdgr-" 


Ssea[[41] 
[1] *———————-—-—————————————————————————— e da--gcdd----vg--atpdkg-" 


$seq[[5]] 


Lt ft ne ren tadaptvprt----ge--gwpgsng" 
Sseqt [611 
[1] "drraaggagiseqiadldagvpapesradaafreglladkeapgwtavgtsvpydywfsggeygfaaggg" 
$seq[[71] 
[di] Wem mi i mme rm de--vpyas---gg--gtp-gg-" 
$seq[181] 
汉人 mms idv--ildh-—--ig---va-gs-" 


图 3-14 去除 后 的 比 对 结果 


第 四 章 Bioconductor 简介 


Bioconductor 是 建立 在 R 语言 环境 上 的 ,用 于 生物 信息 数据 的 注释 、 处 理 、 分 析 及 可 视 
化 工具 包 的 总 集 ， 由 一 系列 R 扩展 包 组 成 。 Bioconductor 当前 最 主要 应 用 在 基因 芯片 和 下 一 
代 测 序数 据 分 析 两 个 领域 ， 而 且 在 其 他 领域 的 应 用 也 逐渐 展开 。 和 截至 2013 年 10 H, 
Bioconductor 2.13 已 经 发 布 了 750 个 软件 包 、698 个 注释 包 和 180 个 数据 包 ， 拥 有 非常 活跃 
的 用 户 群 。 本 章 4.1 简单 介绍 Bioconductor 的 起 源 和 特点 ; 4.2 分 类 介绍 Bioconductor 一 些 
主要 包 的 功能 ; 4.3 通过 几 个 具体 应 用 来 介绍 如 何 使 用 Bioconductor 来 解决 实际 问题 。 希 望 
通过 本 章 的 学 习 ， 读 者 能 够 了 解 并 熟悉 R/Bioconductor 的 编程 思想 ， 便 于 后 续 章 节 的 学 习 。 


4.1 什么 是 Bioconductor 


4.1.1 Bioconductor 的 起 源 


自 1995 年 斯 坦 福 大 学 率先 使 用 基因 芯片 (“Microarray) 分 析 基 因 表 达 以 来 ， 生 命 科 学 
领域 的 研究 人 员 迎 来 了 一 个 巨大 的 机 遇 ， 同 时 也 面临 一 个 巨大 的 挑战 。 从 机 遇 角 度 来 讲 ， 
这 些 非常 庞大 的 基因 表达 数据 蕴含 着 丰富 的 生物 学 知识 ， 可 以 帮助 研究 人 员 通 过 可 重复 的 
实验 来 更 好 地 理解 其 中 的 生物 学 机 制 。 然 而 ， 基 因 芯 片 带 来 的 海量 数据 处 理 任务 是 史 无 前 
例 的 ， 要 求 研究 人 员 同 时 具备 计算 机 、 统 计 学 和 生物 学 三 个 方面 的 知识 ， 这 无 疑 是 一 种 新 
的 挑战 。 男 一 方面 ， 生 命 科学 研究 的 一 大 特点 ， 即 实验 的 可 重复 性 和 可 对 比 性 要 求 数据 和 
方法 公开 和 标准 化 ， 而 当前 研究 人 员 各 自 编写 功能 类 似 的 软件 程序 或 者 流程 来 分 析 同 类 的 
芯片 数据 ， 造 成 了 大 量 的 重复 劳动 ， 而 且 也 不 利于 标准 化 。 因 此 数据 处 理 的 标准 化 也 构成 
了 这 个 挑战 的 一 部 分 。 

针对 这 个 挑战 ， 美 国 西雅图 Fred Hutchinson 癌症 研究 中 心 (Fred Hutchinson Cancer 
Research Center; FHCRC) 的 Rober C. Gentleman (R 语言 的 两 位 创始 人 之 一 ) 等 人 于 2001 
年 发 起 了 Bioconductor 软件 开发 项 目 趾 。 他 们 的 最 初 目 标 是 提供 一 个 快速 发 展 、 可 以 进行 资 
源 整合 、 持 续 升 级 并 支持 并 行 运算 的 软件 平台 来 降低 研究 人 员 分 析 基 因 芯 片 数 据 的 门槛 ， 
增加 基因 组 信息 分 析 平 台 软 件 的 透明 度 和 数据 处 理 的 重 现 度 ， 并 提高 数据 分 析 等 相关 软件 
的 开发 效率 (避免 重复 劳动 )。 当 然 ， 现 在 Bioconductor 已 不 局 限于 分 析 基 因 芯 片 数 据 ， 而 
是 被 广泛 应 用 于 分 析 流 式 细胞 仪 、 色 谱 以 及 下 一 代 测 序 技术 等 产生 的 高 通 量 数据 。 自 2002 
年 5 月 第 一 版 发 布 以 来 ,Bioconductor 与 R 语言 同步 发 展 ， 每 年 保持 两 次 更 新 。 而 且 作为 一 
个 开放 和 发 展 的 系统 ， Bioconductor 也 致力 于 研究 人 员 的 培训 ， 每 年 定期 举行 会 议 ， 并 提 
供 课程 以 培训 研究 人 员 。 同 R 语言 一 样 ，Bioconductor 也 设立 了 核心 开发 团队 〈Core team), 
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该 团队 主要 成 员 来 自 于 FHCRC 中 心 。 


4.1.2 Bioconductor 的 主要 特点 


同属 于 R 的 扩展 包 ，Bioconductor 是 免费 和 开源 的 ， 它 包括 的 所 有 扩展 包 都 是 基于 
Artistic 2.0、GPL2 或 者 BSD 授权 的 ， 用 户 可 以 方便 地 查看 或 者 修改 现 有 算法 或 数据 模块 ， 
根据 新 的 需求 不 断 更 新 已 有 扩展 包 或 开发 新 包 。 除 此 之 外 ，Bioconductor 还 具有 其 他 很 多 优 
点 ， 主 要 表现 在 以 下 儿 个 方面 1。 


(1) 分 布 式 开发 模式 


面 对 类 型 多 样 、 数 目 庞大 的 生物 信息 学 数据 ， 仅 仅 靠 一 个 实验 室 或 者 研究 所 是 不 可 能 
提供 所 有 的 解决 方案 的 。 分 布 式 开发 模式 便于 世界 各 地 的 研究 人 员 和 集思广益 ， 发 挥 各 自 优 
势 ， 共 同 开 发 和 拓展 Bioconductor 项 目 。 分 布 式 开发 允许 各 地 的 开发 者 同时 开发 同一 个 工 
程 中 相同 的 组 件 ， 这 首先 要 求 源 代码 可 以 随时 访问 和 修改 ， 还 需要 具备 良好 的 版 本 控制 系 
统 。Bioconductor 使 用 Concurrent Versions System 〈 一 种 版 本 控制 软件 ) 来 进行 版 本 控制 。 
通过 这 一 系统 ， 所 有 的 开发 者 都 可 以 接触 到 在 一 个 统一 的 文档 中 心 存 放 的 整个 工程 的 源 代 
码 。 分 布 式 开 发 的 另 一 个 要 求 是 不 能 因为 个 别 开 发 者 的 行为 引发 系统 其 他 部 分 的 崩溃 。 由 
于 R 中 使 用 了 包 的 组 织 方式 ， 可 以 将 不 同 开发 者 开发 的 组 件 按照 统一 规范 整理 成 扩展 包 ， 
每 个 包 都 应 该 只 有 单一 和 一 致 的 主题 ， 这 样 通过 功能 模块 化 的 包 控制 了 错误 发 生 的 范围 。 

Bioconductor 依赖 R 包 测 试 系统 的 测试 机 制 来 对 每 一 个 包 进 行 测试 以 确定 其 稳定 性 与 
健壮 性 。 每 一 个 开发 者 都 要 对 其 开发 的 包 中 的 所 有 函数 进行 记录 ， 并 且 提 供 示例 代码 、 脚 
本 或 命令 用 于 代码 测试 。 开 发 者 在 每 次 提交 新 包 或 者 升级 旧 包 之 前 都 必须 保证 所 提交 的 代 
码 可 以 正常 运行 。 有 时 升级 包 会 影响 依赖 它 或 者 导入 它 的 相关 包 的 运行 ， 所 以 在 提交 升级 
之 前 ， 必 须 保 证 升级 的 部 分 不 会 影响 其 他 包 的 正常 运行 。 开 发 团队 的 成 员 们 可 以 通过 论坛 、 
电子 邮件 、 电 话 和 会 议 等 交流 思想 、 更 新 知识 或 协调 合作 。 


(2) 外 部 资源 再 利用 


这 里 的 外 部 资源 主要 是 指 用 其 他 编程 语言 编写 的 程序 。 外 部 资源 再 利用 需要 考虑 三 个 
方面 : 第 一 ，Bioconductor 开发 的 一 个 基本 原则 就 是 尽量 直接 使 用 或 者 稍 加 改编 整合 已 有 的 
算法 或 程序 ， 特 别 是 一 些 标准 工具 和 成 熟 算法 ， 而 不 是 重 写 。 这 样 大 大 减少 了 使 用 未 经 测 
试 的 新 代码 的 风险 ， 而 且 提 高 了 效率 。 第 二 ， 由 于 生物 信息 学 是 一 个 复杂 的 领域 ， 往 往 需 
要 使 用 多 种 程序 和 工具 来 完成 一 个 任务 ， 所 以 Bioconductor 必须 提供 整合 其 他 代码 或 程序 
的 多 种 手段 。 以 Bioconductor 三 个 主要 的 与 图 和 网 络 相关 的 包 (graph、RBGL 和 Rgraphviz) 
为 例 : graph 包 主 要 用 于 构建 图 和 网 络 ， 还 包括 一 些 简单 的 属性 操作 函数 ，RBGL 包 用 于 对 
图 和 网 络 分 析 算 法 的 实现 ， 包 括 求 最 短路 径 和 求 子 网 络 等 ，Rgraphviz 用 于 可 视 化 和 网 络 分 
析 。 三 个 包 中 的 后 两 者 就 是 从 C 语言 中 的 BOOST 库 和 Graphviz 库 直 接 整 合 而 来 ， 
Bioconductor 不 需要 重 写 代码 ， 只 是 提供 了 可 以 更 方便 地 使 用 这 些 功 能 的 接口 。 当 前 ， 还 有 
多 个 生物 信息 语言 或 者 软件 的 开发 项 目 (例如 Bioperl 和 Biojava) 与 Bioconductor 项 目 并 行 
发 展 , 这 些 项 目 将 要 实现 Bioconductor 项 目 同样 (例如 Bioperl 和 Biojava ) 或 者 相关 的 功能 ， 
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Bioconductor 项 目 没有 必要 也 没有 可 能 同时 完成 其 他 项 目 可 以 完成 的 工作 , 因此 最 好 的 方法 
就 是 提供 一 个 标准 化 的 接口 ， 可 以 方便 地 访问 这 些 项 目的 各 种 资源 〈 程 序 或 者 数据 )。 举 例 
来 说 ， 可 扩展 标记 语言 (eXtensible Markup Language, XML) 就 是 一 种 广泛 使 用 的 共享 数 
据 资源 的 标记 语言 ， 它 提供 统一 的 方法 来 描述 和 交换 独立 于 应 用 程序 或 供应 商 的 结构 化 数 
据 。Bioconductor 可 以 不 断 获取 XML 的 新 成 果 ， 而 大 大 降低 成 本 ， 增 强 自 身 功能 。 


(3) 动态 的 生物 学 注释 


这 里 的 注释 特 指 元 数据 (Metadata)， 在 Bioconductor 的 一 些 文档 中 ， 元 数据 与 数据 的 
注释 这 两 个 概念 经 常 混用 。 元 数据 作为 描述 数据 的 数据 ， 主 要 描述 数据 属性 ， 用 来 支持 如 
指示 存储 位 置 、 历 史 数 据 、 资 源 查找 和 文件 纪录 等 功能 。 生 物 信息 领域 的 元 数据 有 两 个 重 
要 特点 ， 即 变化 性 和 复杂 性 。 因 此 Bioconductor 项 目 开 发 了 一 些 软件 协助 研究 人 员 使 用 和 
分 析 元 数据 。 为 了 保证 元 数据 及 时 更 新 ， 以 便 用 户 可 以 得 到 最 新 的 元 数据 ，Bioconductor 将 
元 数据 写 入 R 包 .这 些 R 包 都 是 采用 一 种 半自动 更 新 的 方法 创建 ,并 通过 一 些 基 于 reposTools 
包 开 发 的 工具 发 布 或 更 新 。 元 数据 有 版 本 管理 ， 用 户 可 以 决定 何 时 更 新 需要 的 数据 ， 还 可 
以 方便 地 获取 旧版 本 的 数据 。 

自动 构建 数据 包 有 如 下 好 处 : 首先 ， 因 为 注释 包 有 统一 的 规范 ， 用 户 熟 悉 了 一 个 包 之 
后 对 同类 型 的 包 也 会 触 类 旁 通 ， 第 二 ， 数 据 包 的 创建 便捷 快速 ， 例 如 有 关 基 因 芯 片 的 所 有 
数据 包 ;， 都 应 该 包括 同样 的 信息 《例如 染色 体位 置 和 基因 本 体 论 类 别 等 )， 所 不 同 的 是 每 种 
芯片 都 有 不 同 的 探 针 集合 。 

经 常 遇 到 的 一 个 问题 是 ， 用 户 是 否 应 该 仅仅 依赖 在 线 资 源 获取 元 数据 。 从 潜力 上 讲 ， 
在 线 方式 保证 了 用 户 可 以 更 及 时 获取 最 新 的 信息 ， 本 地 包 的 方式 往往 做 不 到 。 但 是 相对 于 
在 线 资源 ， 使 用 本 地 数据 包 也 有 它 的 优势 ， 比 如 用 户 不 能 一 直 在 线 ， 用 户 可 能 对 在 线 的 信 
息 资 源 并 不 是 十 分 了 解 等 。 另 外 ， 在 线 资 源 可 以 被 拥有 者 随意 地 更 新 和 修改 ， 有 时 候 无 法 
保证 追踪 到 旧版 本 的 数据 以 重复 已 经 发 表 的 结果 。 


(4) 实验 的 可 重复 性 


Bioconductor 非常 强调 研究 的 可 重复 性 ， 这 是 生物 信息 学 ， 乃 至 科学 发 现 的 基础 。 然 而 
在 计算 科学 领域 ， 这 方面 不 是 很 乐观 。 在 以 往 的 计算 科学 相关 的 文章 中 ， 人 们 往往 只 是 对 
自己 的 算法 进行 描述 ， 因 为 纸 制 文章 这 种 发 表 媒 介 局 限 了 人 们 发 布 实 验 数据 、 运 行 参数 以 
及 程序 本 身 。 其 后 果 就 是 他 人 在 重复 前 人 工作 时 ， 需 要 花费 很 大 的 精力 去 琢磨 一 些 细节 问 
题 ， 特 别 在 无 法 与 作者 进行 有 效 沟通 的 情况 下 ， 需 要 投入 更 多 的 时 间 。 在 生物 信息 学 领域 ， 
在 发 表 文 章 的 同时 发 表 数据 已 经 成 为 一 种 趋势 ， 这 为 他 人 重复 实验 提供 了 可 能 。 而 重复 实 
验 还 需要 软件 以 及 每 一 步 的 执行 命令 和 参数 等 详细 信息 。 因 此 当前 主流 的 高 品质 期 刊 都 要 
求 文章 发 表 者 提供 相应 的 哪怕 是 非常 基础 的 工作 细节 。 将 全 部 详细 信息 一 起 提交 的 文章 ， 
才能 成 为 高 水 平 的 文章 。 

Biocondoctor 扩展 包 及 文档 的 统一 标准 为 同时 发 布 数据 和 代码 等 信息 提供 最 优秀 的 平 
台 ， 完 全 可 以 满足 生物 信息 学 研究 的 可 重复 性 要 求 。 哪 怕 是 如 何 生 成 一 个 图 形 或 一 个 表格 ， 
其 详细 过 程 都 可 以 在 Sweave 文档 中 找到 。 任何 一 个 R 用 户 都 可 以 很 轻松 地 修改 代码 或 参数 
来 检验 文章 中 的 计算 结果 的 健壮 性 ， 或 者 尝试 不 同 算法 和 参数 的 计算 结果 。 从 可 重复 性 角 
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度 ，R 和 Bioconductor 将 给 生物 信息 学 研究 带 来 一 场 革命 。 
(5) 教育 培训 资源 丰富 


R/Bioconductor 作为 一 种 新 的 程序 设计 语言 ， 需 要 生物 学 、 计 算 机 和 统计 学 等 多 方面 的 
背景 知识 ， 因 此 教育 培训 用 户 成 为 了 一 个 重要 的 环节 。 每 年 都 会 有 大 量 的 培训 资料 公布 在 
Bioconductor 的 官网 或 其 他 网 站 上 ， 主 要 提供 两 个 方面 的 资源 : 课程 资料 和 说 明文 档 。 一些 
Bioconductor 的 开发 者 会 亲自 主讲 一 些 课 程 ， 并 且 依 据 反馈 不 断 改 进 课 程 资料 。 课 程 资料 主 
要 是 为 了 介绍 如 何 使 用 扩展 包 ， 是 公开 免费 的 ， 不 过 对 发 表 有 限制 。Bioconductor 除了 发 表 
传统 的 说 明文 档 (如 使 用 手册 ), 更 依赖 于 网 上 可 动态 更 新 的 在 线 文档 。 特别 是 Bioconductor 
引入 一 种 叫做 Vignette 的 大 规模 说 明文 档 : 传统 的 文档 只 是 说 明 一 个 或 者 几 个 函数 的 功能 或 
应 用 ,Vignette 则 详细 地 说 明 完 成 某 项 复杂 任务 〈 使 用 多 个 函数 和 包 ) 所 需要 的 每 一 个 步骤 。 
文档 开发 需要 多 方面 人 员 的 共同 努力 ， 有 文档 写作 经 验 的 开发 者 会 在 写作 策略 、 概 念 以 及 
方法 学 方面 带 来 创新 。 但 更 多 的 贡献 需要 来 自 R 使 用 者 ， 即 使 是 不 懂 编 程 的 人 也 可 以 作出 
贡献 。 很 多 研究 人 员 会 从 Bioconductor 用 户 转 变 为 开发 者 ， 所 以 在 文档 写作 的 过 程 中 ， 必 
须 考 虑 这 一 类 人 的 需要 。 如 果 文 档 写 得 非常 有 吸引 力 ， 极 有 可 能 把 这 些 人 吸引 到 该 项 目的 
开发 队伍 中 ， 大 大 提高 合作 开发 的 成 功率 。 


(6) 响应 用 户 需 求 


一 个 软件 的 成 功 很 大 程度 上 取决 于 它 与 用 户 的 交流 。 当 前 最 有 效 的 响应 用 户 的 方式 可 
能 就 是 邮件 列表 (Maillist ) 。Bioconductor 在 建立 初始 就 启动 了 相应 的 邮件 列表 
(bioconductor@stat.math.ethz.ch)， 并 可 查询 以 往 的 邮件 。 以 往 的 邮件 中 的 问题 答案 可 以 帮 
助 遇 到 相同 问题 的 用 户 快速 地 解决 问题 ;以往 的 邮件 中 的 错误 报告 为 开发 者 避免 或 者 修正 
错误 提供 了 参考 。 另 一 方面 , 响应 用 户 需求 还 需要 图 形 化 用 户 界 面 (Graphical User Interface, 
GUI). GUI 比 命令 行 形式 可 以 更 好 地 实现 人 机 交互 ， 它 可 以 减少 人 们 对 命令 行 的 敬 晨 感 ， 同 
时 可 以 有 效 帮 助人 们 自动 完成 复杂 的 操作 ， 比 如 众多 参数 的 设置 、 复 杂 函 数 名 的 拼写 等 等 。 

用 户 在 下 载 及 安装 方面 也 会 遇 到 不 同 程度 的 困难 : 有 些 时 候 可 能 是 用 户 本 地 配置 的 问 
题 , 有 时 候 可 能 是 由 软件 的 Bug 引起 的 。Bioconductor 项 目 核心 开发 团队 会 尽力 帮助 每 个 用 
户 正确 安装 R 以 及 Bioconductor。 另 外 , 不 同 扩展 包 之 间 的 依赖 关系 的 管理 也 尽 可 能 由 系统 
自动 完成 ， 用 户 下 载 安 装 某 个 扩展 包 时 ， 系 统 会 自动 下 载 并 安装 它 所 依赖 的 其 他 包 。 


4.2 Bioconductor 的 分 类 介绍 


包 的 管理 方式 大 大 方便 了 分 布 式 开发 和 版 本 管理 ， 但 是 也 带 了 另外 一 个 问题 ， 即 当 用 
户 面 对 成 百 上 千 个 扩展 包 的 时 候 ， 应 该 如 何 从 零 入 手 学 习 呢 ? 本 节 分 类 介绍 各 种 包 的 功能 ， 
给 初学 者 一 个 总 体 概念 ， 为 读者 的 自学 提供 一 个 指南 。 
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4.2.1 三 大 板块 分 类 介绍 


BiocViews 是 由 Bioconductor 的 BiocViews 包 自 动 生 成 的 用 于 展示 Bioconductor 各 个 发 
布 版 本 所 有 包 的 HTML 信息 页 。BiocViews 将 Bioconductor 划分 为 三 大 板块 (图 4-1)， 包 
括 实 验 数据 包 〈ExperimentData)、 软 件 包 (Software) 和 注释 数据 包 〈AnnotationData)。 

划分 的 目的 是 方便 软件 开发 及 教学 交流 。 对 于 Bioconductor 用 户 而 言 ， 这 种 划分 方法 
非常 适合 快速 掌握 数据 处 理 流程 。 首 先 需 要 知道 设计 算法 是 为 了 处 理 什 么 样 的 生物 信息 数 
据 ， 这 些 数据 的 格式 和 内 容 是 什么 ， 因 此 必须 有 一 些 公开 的 数据 作为 样 例 ， 这 就 是 设计 实 
验 数 据 包 的 出 发 点 ， 比 如 白血病 “Leukemia〉 的 ALL 数据 包 是 广泛 用 Affymetrix 进行 基因 
芯片 分 析 的 教学 数据 包 ; 算法 是 Bioconductor 的 核心 ， 这 些 算 法 集成 到 软件 包 中 ， 由 它们 
负责 读 取 实 验 数 据 来 产生 统计 结果 或 图 形 输出 ; 在 数据 处 理 过 程 中 ， 需 要 调 取 的 参考 信息 
全 部 放 到 注释 数据 包 中 ， 注 释 数 据 包 实 际 上 就 是 本 地 化 的 生物 信息 数据 库 。 三 大 板块 划分 
的 更 为 重要 的 意义 ， 在 于 它们 可 以 协同 合作 记录 一 个 实验 的 全 部 数据 和 分 析 过 程 ， 用 户 可 
以 将 其 与 论文 同时 发 表 ， 提 高 科研 成 果 的 可 重复 性 〈 见 4.1.2)。 

三 大 板块 的 划分 有 利于 开发 者 快速 开发 与 验证 软件 包 。 开 发 者 可 以 从 实验 数据 包 中 选 
择 合 适 的 数据 来 进行 算法 分 析 或 比较 ， 比 如 hapMap 数据 包 就 是 广泛 用 于 SNP 算法 分 析 与 
比较 的 数据 包 。 这 样 做 ， 一 方面 可 以 有 效 减 小 软件 包 的 大 小 ， 另 一 方面 使 用 和 其 他 开发 者 
相同 的 数据 ， 可 以 方便 纠 错 (Debug〉 以 及 横向 比较 不 同 软 件 包 算法 的 差别 。 开 发 者 通过 
BiocViews 的 分 类 系统 对 自己 的 软件 包 进行 定 位 , 还 可 以 从 同类 软件 包 中 学 习 开发 标准 及 规范 。 


Bioconductor 


OPEN SOURCE SOFTWARE FOR BIOINFORMATICS 


Heip 





Home » BiocViews 


All Packages 


Bioconductor version 2.11 (Development) Packages 





" Software (609) Package Maintainer Title 
Annotation (83) a4 Tobias Verbeke Automated Affymetrix Array Analysis Umbrella Package 
AssayDomains (237) a4Base Tobias Verbeke Automated Affymetrix Array Analysis Base Package 
AssayTechnologies (358) a4Classif Tobias Verbeke Automated Affymetrix Array Analysis Classification Package 
^ Bioinformatics (395) g4Core Tobias Verbeke Automated Affymetrix Array Analysis Core Package 
^ BiologicalDomains (80) r Automated Affymetrix Array Analysis Preprocessing 
a4Preproc Tobias Verbeke 
» Infrastructure (168) Package 
AnnotationData (666) a4Reporting Tobias Verbeke — Affymetrix Array Analysis Reporting Package 
+ ExperimentData (137) — | | |  wqaamin Microarra y QA and statistical data analysis for Appli m 
SS e) ABarray Xongmüng — Dies systems Genome Survey Microrarray (AB1700) gen 


图 4-1 Bioconductor 的 BiocViews 界 面 
4.2.2 ”软件 包 的 进一步 介绍 


在 三 大 类 包 中 ， 软 件 包 尤为 重要 ， 因 为 用 户 使 用 Bioconductor 最 主要 的 目的 就 是 对 其 
提供 的 算法 和 数据 处 理 方 法 的 调用 ， 因 此 需要 对 软件 包 中 的 六 组 具体 应 用 做 一 个 简单 介绍 。 
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这 种 早期 的 划分 方式 现在 看 来 比较 混乱 ， 不 能 提供 很 好 的 结构 以 适应 各 类 具体 应 用 ， 因 此 
读者 只 需要 简单 了 解 一 下 即 可 。 考 虑 到 R 包 的 动态 变化 ， 下 面 列 出 的 分 类 与 最 新 版 本 的 内 
容 会 有 一 些 差异 。 


(1) 注释 (Annotation) 


生物 数据 (如 序列 ) 的 注释 是 生物 信息 学 一 个 非常 重要 的 领域 ， 而 且 随 着 各 种 生物 基 
因 组 测序 任务 的 完成 ， 以 及 表达 序列 标记 (Expressed Sequence Tag; EST) 和 基因 表达 数据 
的 大 量 积累 ， 序 列 注释 的 工作 量 和 复杂 度 大 大 增加 。Bioconductor 提供 了 大 量 的 工具 和 元 数 
据 用 于 各 类 生物 数据 的 注释 ,“ 注 释 ” 即 作为 一 组 软件 包 单独 分 类 ， 又 作为 一 个 应 用 领域 分 
类 介绍 ( 详 见 4.2.3)。 考 虑 到 很 多 工具 是 针对 某 种 元 数据 的 ,后 者 的 分 类 方式 更 为 合理 。“ 注 
释 ” 作 为 一 组 软件 包 ， 可 进一步 分 为 以 下 几 部 分 : 

* 基因 本 体 论 (Gene Ontology, GO) 

。 通路 分 析 (Pathways) 

* 平台 属性 (Proprietary Platforms) 

* REER (Report Writing) 


(2) 微 阵 列 板块 《Assay Domains) 


这 个 组 的 包 主 要 用 于 处 理 基 因 芯 片 数据 。Bioconductor 可 支持 几乎 所 有 主流 芯片 数据 
格式 ， 从 Affymetrix 公司 的 商业 化 单 色 寡 核 苷 酸 芯 片 ， 到 用 户 定制 的 双色 cDNA 芯片 。 世 
片 分 析 包 括 数 据 预 处 理 、 差 异 表 达 基 因 筛 选 以 及 聚 类 分 析 等 。 有 关 基 因 芯 片 数据 处 理 的 内 
容 会 在 第 五 章 详细 介绍 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

。 比较 基因 组 杂交 (Comparative Genomic Hybridization, CGH) 

。 细胞 水 平 检测 (Cell Based Assays) 

。 染色 质 免疫 共 沉 淀 蕊 片 (ChIPchip) 

。 拷贝 数 变异 (Copy Number Variants ) 

* CpG 岛 (CpGlsland) 

。 差异 表达 (Differential Expression) 

* DNA 甲 基 化 (DNA Methylation) 

。 外 显 子 检测 (Exon Array ) 

* 基因 表达 (Gene Expression) 

。 遗传 变异 性 CGeneticVariability ) 

。 单 核 背 酸 多 态 性 CSNPO 

。 转录 (Transcription ) 


(3) 高 通 量 实验 技术 (Assay Technologies) 


这 个 组 的 包 将 可 以 处 理 的 高 通 量 实验 数据 ， 从 基因 芯片 扩展 到 了 包括 质谱 、 流 式 细胞 
仪 和 高 通 量 测序 等 领域 。 例 如 ， 高 通 量 测序 (High Throughput Sequencing) 类 的 ShortRead 
包 是 一 个 对 高 通 量 测序 数据 进行 输入 、 质 量 评估 和 预 处 理 的 包 。 这 个 组 的 包 进 一 步 分 为 以 
下 儿 部 分 : 
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。 基因 芯片 〈Microarray ) 

。 微 孔 板 检测 CMicrotitre Plate Assay) 

。 质谱 (Mass Spectrometry) 

。 基因 表达 系列 分 析 (Serial Analysis of Gene Expression, SAGE ) 
。 流 式 细胞 仪 (Flow Cytometry ) 

。 测 序 (Sequencing) 

。 高 通 量 测序 (High Through put Sequencing) 


(4) 生物 信息 学 (Bioinformatics) 


这 个 组 的 包 主 要 为 生物 数据 的 处 理 提供 各 种 通用 的 流程 和 算法 。 主 要 的 流程 包括 基因 
芯片 数据 预 处 理 〈 如 背景 校正 、 归 一 化 和 质量 控制 等 )、 分 析 基 因 芯 片 数据 、 研 究 基因 之 间 
的 关系 、 研 究 样 本 之 闻 的 关系 和 识别 差异 表达 基因 等 。 一 些 常 见 的 数据 分 析 方 法 〈 如 分 类 
分 析 、 聚 类 分 析 和 时 间 序 列 分 析 等 ) 都 包含 在 内 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

°- RZ (Clustering) 

* 4% (Classification) 

* 富 集 分 析 (Enrichment) 

多 组 比较 (Multiple Comparisons) 
。 预 处 理 (Preprocessing) 

质量 控制 (Quality Control) 

序列 匹配 (Sequence Matching) 

。 时 间 序 列 分 析 (Time Course? 
可 视 化 (Visualization) 

网 络 分 析 (Networks) 


(5) 生物 学 板块 (Biological Domains) 


这 个 组 的 包 侧 重生 物 〈 特 别 是 各 类 组 学 ) 数据 的 下 游 分 析 。 例 如 ， 细 胞 生物 学 〈Cell 
Biology) 类 的 SamSPECTRAL 包 帮 助 用 户 确定 流 式 细胞 仪 数据 中 的 细胞 群 ， 遗 传 学 
(Genetics) 类 的 TSSi 包 帮 助 用 户 确定 高 质量 测序 数据 中 的 转录 起 始 位 点 ; 蛋白 组 学 
(Proteomics) 类 的 clippda 包 为 用 户 提 供 一 些 分 析 来 自 临 床 样本 的 蛋白 质 组 学 数据 的 方法 ， 
涵盖 实验 设计 和 参数 确定 等 方面 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

。 细胞 生物 学 〈Cell Biology) 

。 遗传 学 (Genetics) 

* 代谢 组 学 (Metabolomics) 

-e AHHA (Proteomics) 


(6) Bioconductor 基础 架构 (Infrastructure ) 


这 个 组 的 包 主 要 给 用 户 提供 一 些 通 用 工具 ， 包 括 数据 的 输入 、 输 出 和 图 像 可 视 化 等 。 
数据 输入 CDatalmport) 类 的 Rsamtools 包 提 供 了 一 个 统一 接口 可 以 接受 下 一 代 测 序 中 常见 
文件 格式 (例如 SAM 和 BAM 格式 ) 的 输入 。 图形 用 户 界面 (Graphical User Interface, GUI) 
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类 的 oneChannelGUI 包 提 供 一 个 用 户 界面 , 方便 用 户 分 析 基 因 表 达 芯 片 和 miRNA/RNA-seq 
数据 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

。 数据 输入 (Data Import ) 

。 数据 呈现 (Data Representation) 

。 图 和 网 络 (Graphs And Networks) 

。 图 形 用 户 界面 (Graphical User Interface) 

* 可 视 化 《Visualization) 


4.2.3 按照 应 用 领域 分 类 


为 了 方便 用 户 根据 应 用 目的 快速 找到 相关 的 R 包 , Bioconductor 网 站 在 首页 提供 了 一 个 
根据 应 用 领域 的 简单 分 类 ， 这 个 分 类 体现 在 当前 最 主要 的 应 用 领域 ， 而 且 主页 上 显示 的 那 
些 领域 是 动态 变化 的 ， 本 书 根据 Bioconductor2.11 (2012 年 10 月 访问 ) 的 主页 内 容 ， 简 单 
介绍 下 列 5 个 应 用 领域 。 


(1) ÆA (Microarrays) 


Bioconductor 的 起 源 就 来 自 基 因 芯 片 数 据 分 析 ， 因 此 这 方面 的 支持 是 最 全 面 的 ， 涵 盖 
了 多 个 芯片 厂商 和 多 种 芯片 类 型 ， 主 要 的 芯片 提供 商 包 括 Affymetrix A5), Ilumina 公司 、 
Nimblegen 公司 和 Agilent 公司 ; 芯片 类 型 有 基因 表达 芯片 《Expression arrays)、 外 显 子 芯片 
(Exon arrays)、 拷 贝 数 变异 (检测 ) 芯 片 CCopy number arrays)、SNP( 检 测 ) 芯 片 (SNP arrays), 
DNA 甲 基 化 〈 检 测 ) 芯片 (Methylation arrays) 等 。 基 因 芯 片 数 据 分 析 的 主要 工作 包括 预 
处 理 (Pre-processing)、 质 量 评估 (Quality assessment)、 差 异 基因 表达 分 析 (Differential gene 
expression analysis )、 基 因 集 富 集 分 析 (Gene set enrichment analysis). 和 遗传 基因 组 学 等 。 
Bioconductor 提供 了 主要 基因 芯片 数据 库 〈 如 GEO 和 ArrayExpress) 的 接口 ， 方 便 获 取 芯 
片 数 据 。 

针对 不 同 基因 芯片 厂商 和 类 型 , Bioconductor 开发 了 多 种 不 同 的 包 分 别处 理 不 同类 型 数 
据 ， 包 与 芯片 种 类 的 对 应 关系 非常 复杂 ， 下 面 根据 各 种 芯片 数据 ， 简 单 介绍 一 些 常用 的 扩 
展 包 。 

Affymetrix 3 -biased Arrays 心 片 的 数据 处 理 需 要 affy 包 、gcrma 包 和 affyPLM 包 , 这 些 
包 又 依赖 芯片 定义 (CDF)、 探 针 〈Probe) 和 注释 (Annotation) 三 个 包 ， 后 三 个 包 会 自动 
安装 ; Affymetrix 3' -biased Arrays 世 片 还 需要 xps 包 , xps 包 依 赖 ROOT 包 ( 必 须 手 动 安装 )， 
可 以 直接 使 用 Affymetrix 芯片 产生 的 数据 文件 格式 ， 包 括 CDF, PGF, CLF 和 CSV. 

Affymetrix Exon ST Arrays 芯片 和 Affymetrix Gene ST Arrays 芯片 的 数据 处 理 需 要 oligo 
包 和 xps 包 。Oligo 包 需 要 预先 使 用 pdInfoBuilder 包 创 建 一 个 pdInfoPackage 包 ， 后 者 可 以 
合并 芯片 定义 (CDF), HEt (Probe) 和 注释 (Annotation) 三 种 数据 。 

Affymetrix SNP Arrays 芯片 的 数据 处 理 仅仅 需要 oligo &. Oligo 包 需 要 预先 使 用 
pdInfoBuilder 包 创 建 一 个 pdInfoPackage 包 ， 后 者 可 以 合并 芯片 定义 (CDF), HRE (Probe) 
和 注释 (Annotation) 和 单 体 型 图 (HapMap) 四 种 数据 。 但 是 当前 的 oligo 包 还 不 能 处 理 SNP5.0 
和 SNP6.0 中 的 拷贝 数 变异 (Copy-number variation, CNV) 的 区 域 。 
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Affymetrix Tilling Arrays 芯片 和 Nimblegen Arrays 芯片 的 数据 处 理 仅 仅 需 要 oligo 包 。 

Illumina Expression Microarrays 芯片 的 数据 处 理 需要 lumi 包 和 beadarray 包 。lumi 包 和 
beadarray 包 都 需要 各 自 独 有 的 映射 包 和 注释 包 ， 如 lumi 包 需 要 lumiHumanAlldb 包 和 
lumiHumanIDMapping 包 ; beadarray 需要 illuminaHumanv1BeadID.db 包 和 illuminaHumanV1.db 
包 。 


(2) 测序 数据 (Sequence data) 


Bioconductor 可 以 处 理 多 种 与 测序 〈 特 别 是 高 通 量 测序 ) 结果 相关 的 文件 类 型 ， 包 括 
Fasta, Fastq, SAM, BAM, Gff, Bed 和 Wig 等 。 对 测序 数据 的 处 理 ， 一 般 包括 测序 结果 
的 预 处 理 〈( 例 如 去 除 低 质量 和 污染 等 步骤 )、 格 式 转 换 (Transformation)、 序 列 对 比 
(Alignment) 、 测 序 质量 评估 、RNA-seq 实验 数据 处 理 及 表达 差异 分 析 和 ChIP-seq 实验 数据 
处 理 等 方面 。 

Bioconductor 的 SRAdb 包 提 供 了 对 SRA CSequence Read Archive) 数据 库 的 接口 。SRA 
是 NCBI 在 2007 年 底 推出 的 , 专门 用 于 存储 、 显示 、 提取 和 分 析 高 通 量 测序 数据 的 数据 库 ， 
其 范围 涵盖 基因 组 、 转 录 组 和 表 观 遗传 学 等 多 个 方面 ， 是 当前 最 为 重要 的 高 通 量 测序 数据 
公共 数据 库 。 

ShortRead 包 一 般 将 高 通 量 测序 数据 作为 输入 ， 提 供 质 量 控 制 、 去 污染 等 数据 预 处 理 基 
本 功能 ; Rsamtools 包 的 输入 数据 是 将 测序 得 到 的 读 段 比 对 到 参考 基因 组 或 者 转录 组 的 结果 
文件 (如 SAM 和 BAM 格式 )， 主 要 完成 的 功能 包括 文件 格式 转换 和 一 些 比 对 结果 的 统计 
与 分 析 ; ”rtracklayer 用 于 将 数据 导入 到 UCSC 基因 组 浏览 器 〈http:Wgenome.ucsc.edu)， 并 
进行 浏览 和 操作 ， 也 可 用 于 将 数据 导出 。 

IRanges 包 、 GenomicRanges 包 和 genomelntervals 包 都 是 基于 DNA 区 域 ( 如 染色 体 
区 域 ) 对 数据 进行 计算 、 操 作 和 表示 的 扩展 包 。 Biostrings 包 集 成 了 序列 比 对 (Alignment) 
和 模式 匹配 (Pattern matching) 等 非常 基本 的 序列 分 析 函 数 ， 将 在 本 章 4.3 详细 介绍 。 
BSgenome 包 用 于 访问 或 者 操作 带 有 注释 信息 的 全 基因 组 数据 ，GenomicFeatures 包 用 于 对 
基因 组 中 的 序列 特征 (如 编码 区 〉 进行 注释 。 

RNA-seq 数据 分 析 和 差异 表达 分 析 方 面 常用 的 扩展 包 主 要 有 edgeR、DESeq、baySeq、 
DEGseq 和 DEXSeq。 DEXSeq 包 可 以 用 于 外 显 子 水 平 〈Exon-level) 的 差异 表达 分 析 ， 但 
是 要 求 R 的 版 本 必须 高 于 2.14。 这 些 包 将 在 第 六 章 详细 介绍 。 

ChIP-seq 数据 分 析 及 相关 分 析 ， 如 基 序 发 现 (Motif discovery) 和 结合 位 点 检测 (Peak 
calling) 等 , 可 以 使 用 以 下 包 : CSAR、 chipseq、ChIPseqR、ChIPsim、ChIPpeakAnno、 DiffBind、 
iSeq. rGADEM, segmentSeq. BayesPeak 和 PICS. 

更 多 的 高 通 量 测序 数据 处 理 相 关 的 扩展 包 的 信息 ， 可 以 进入 【biocViews】 查 找 : ”选择 
软件 包 类 【 Software 】 祖 高 通 量 实验 技术 【 AssayTechnologies 】 沪 高 通 量 测序 
【HighThroughputSeqencing ]. 


(3) 注释 (Annotation) 


-EX d $, Bioconductor 提供 了 大 量 的 包 来 进行 生物 信息 注释 , 这 些 包 既 包括 注释 工具 ， 
又 包括 各 种 注释 数据 ， 或 者 连接 到 注释 数据 库 的 接口 等 等 。 这 里 按照 注释 方式 做 一 个 简单 
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的 分 类 ， 并 且 介 绍 几 个 核心 的 注释 包 ， 为 读者 提供 一 个 整体 框架 。 本 书 将 Bioconductor 中 
注释 的 方式 分 为 三 类 。 

第 一 大 类 是 基于 AnnotationDbi 包 的 扩展 包 。AnnotationDbi 包 的 重要 性 达到 了 “ 绝 大 部 
分 注释 包 都 依赖 AnnotationDbi 包 ” 的 水 平 。 一 旦 使 用 biocLite 函数 安装 任何 一 个 “.db” 注 
释 包 ， AnnotationDbi 包 都 会 被 自动 安装 。AnnotationDbi 包 实 现 了 “.db” 注 释 包 的 创建 和 
操作 ， 并 能 创建 个 性 化 的 芯片 平台 〈Custom chip platforms )。 这 类 注释 包 可 以 进一步 分 为 : 
物种 型 注释 包 , 如 org.Mm.eg.db、org.Hs.eg.db 和 org.Rn.eg.db 等 ;平台 型 注释 包 , 如 Affymetrix 
公司 的 hgul33plus2.db 等 ， 系 统 生物 学 注释 包 ， 如 GO.db 和 KEGGdb 等 。 

。 物 种 型 注释 包 包 括 整 个 物种 相关 的 基因 数据 ， 其 命名 格式 为 :“org.Xx.yy.db”。“Xx” 
是 种 属 的 缩写 ,“yy” 是 来 源 数 据 库 ID， 用 于 把 所 有 数据 连 到 一 起 。 例 如 : org.Hs.eg.db 注释 
包 中 ， 其 种 属 是 “Hs”，ID 源 是 “eg”。 

。 平台 型 注释 包 依 赖 于 具体 实验 平台 ， 最 典型 的 就 是 芯片 注释 包 ， 其 命名 格式 为 : 
“platformName.db”.“platformName” 是 芯片 平台 的 名 称 。 例 如 hgu95av2.db 包 ， 就 是 对 应 
Affymetrix 公司 的 hgu95av2 基因 芯片 。 另 外 ，Affymetrix 相关 平台 的 每 个 “.db” 包 还 需要 
其 对 应 的 “.cdf” 和 “.probe” 包 。 其 名 称 格式 为 : “platformName.cdf” 和 “platformName.probe”。 

。 系统 生物 学 注释 包 用 于 设备 无 关 的 下 游 分 析 ( 例 如 基因 功能 分 析 )。 例 如 :KEGG.db 用 
于 获取 KEGG (Kyoto Encyclopedia of Genes and Genomes) 数据 库 中 的 数据 ;GO.db 用 于 
获取 基因 本 体 论 CGene Ontology) 的 数据 ; PFAM.db 用 于 获取 不 同 蛋白 家 族 的 特征 和 相关 
性 数据 。 

第 二 大 类 是 利用 biomaRt 包 获 取 注释 信息 。biomaRt 包 与 AnnotationDbi 注释 包 的 最 大 
不 同 在 于 它 提供 的 注释 信息 都 来 自 远程 服务 器 ，biomaRt 包 只 是 提供 了 一 组 接口 ， 而 
AnnotationDbi 注释 包 将 数据 本 地 化 。 虽 然 biomaRt 包 在 注释 速度 上 严重 依赖 网 络 的 连接 速 
度 ， 但 它 具 有 无 需 维护 ， 不 占用 本 地 存储 空间 和 注释 信息 自动 更 新 等 突出 优点 ， 这 部 分 内 
容 将 在 4.3.2 详细 介绍 。 

第 三 大 类 是 指 前 两 类 以 外 的 其 他 注释 资源 。 一 个 例子 就 是 以 基因 组 浏览 器 为 基础 的 
Rtracklayer 包 , 它 负责 完成 R 中 数据 结构 GRanges objects 与 常见 基因 组 文件 格式 (如 Wig, 
Bed 等 ) 相互 转换 ， 成 为 R 与 基因 组 浏览 器 之 间 的 桥梁 。 此 外 ， 还 有 一 些 下 游 的 数据 分 析 
也 时 常 被 人 们 视 为 注释 的 一 部 分 ， 但 实现 上 它们 已 经 超出 了 注释 的 本 意 ， 如 基于 注释 信息 
进行 聚 类 分 析 所 涉及 的 包 、 用 于 分 类 分 析 的 Category 包 、 对 已 注释 的 基因 本 体 论 术语 做 超 
几何 检验 的 GOstats 包 。 

在 三 类 注释 方式 中 ， 利 用 biomaRt 包 获 取 注 释 信 息 最 为 重要 ，biomaRt 可 以 连接 到 各 主 
要 生物 信息 数据 库 以 获取 注释 信息 和 数据 (如 DNA. 序列 )， 功 能 最 为 强大 ， 在 学 习 基于 
AnnotationDbi 包 的 注释 过 程 中 ， 重 点 要 放 在 如 何 使 用 “.db” 注 释 包 ， 对 于 如 何 利用 
AnnotationDbi 包 创 建 “.db” 注 释 包 可 以 简单 了 解 ; 第 三 大 类 包 情 况 复 杂 ， 需 要 通过 以 后 的 
学 习 慢 慢 积累 经 验 ， 没 有 通用 的 规律 可 以 遵循 。 


(4) 变异 注释 (Variants ) 


这 个 领域 只 有 一 个 扩展 包 VariantAnnotation。 随 着 下 一 代 测 序 技术 (NGS) 的 快速 发 展 ， 
对 于 基因 组 中 不 同 个 体 之 间 的 遗传 信息 进行 突变 分 析 已 经 成 为 疾病 诊断 及 分 析 的 重要 手 
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段 。 通 过 SAMTOOLS 等 软件 对 NGS 测序 结果 分 析 ， 可 以 得 到 包含 插入 与 缺失 (INDELs) 
和 SNP 突变 信息 的 文件 (格式 称 作 Variant Call Format, VCF)» Variant Annotation 扩展 包 用 
于 读 取 VCF 文件 , 以 获得 DNA 在 基因 组 的 定位 信息 或 者 编码 区 中 氨基 酸 的 无 义 突变 等 信息 。 


(5) 高 通 量 实验 (High Throughput Assays) 


Bioconductor 有 许多 分 析 高 通 量 实验 的 包 ， 用 于 处 理 流 式 细胞 仪 (Flow Cytometry), 
量 PCR (Quantitative real-time PCR). Jti (Mass spectrometry)、 和 蛋白 质 组 (Proteomics) 
和 其 他 基于 细胞 水 平 的 高 通 量 数据 。 以 下 简要 介绍 一 下 与 上 述 几 类 高 通 量 试验 数据 分 析 相 关 的 一 些 
重要 的 扩展 包 ， 详 细 信息 可 参考 扩展 包 主 页 (http://www.bioconductor.org/packages/release/bioc/) 或 
相关 文献 (http:/www.bioconductororg/help/publications/ )。 

流 式 细胞 仪 : flowCore. flowViz. flowQ. flowStats. flowUtils. flowFP. flowTrans 和 
iFlow 等 R 包 使 用 林 准 的 FCS 文档 (Data File Standard for Flow Cytometry), — 包括 基础 架 
构 、 应 用 、 可视化 和 流 式 细 胞 仪 数据 的 半自动 化 分 析 方 法 ; flowClust、 flowMeans, flowMerge 
和 SamSPECTRAL 等 包 提 供 了 算法 来 聚 类 流 式 细胞 仪 数据 ;文档 flowWorkFlow.pdf 
C http;//www.bioconductor.org/help/workflows/high-throughput-assays/flowWorkFlow.pdf) 中 介 
绍 了 一 个 应 用 flowCore. flowViz. flowQ 和 flowStats 等 包 的 典型 工作 流程 ， 流 程 中 用 到 的 
数据 下 载 自 http://www.bioconductor.org/help/workflows/high-throughput-assays/dataFiles.tar。 

细胞 水 平 检测 : cellHTS2 和 RNAither 两 个 包 用 于 对 细胞 水 平 高 通 量 筛 选 提供 数据 结构 
和 算法 ，RTCA 这 个 包 用 于 支持 xCELLigence 系统 ， 这 个 系统 包含 一 系列 的 实时 细胞 分 析 
1X. (Real-time cell analyzer; RTCA). 

高 通 量 定量 PCR 试验 : HTqPCR ddCt 和 qperNorm 等 包 主 要 提供 了 如 何 分 析 定 量 实时 
PCR 的 循环 阀 值 (Cycle threshold). 的 算法 。 

质谱 和 蛋白 组 数据 : clippda、 MassArray、 MassSpecWavelet、 PROcess、 flagme 和 
xcms 等 包 主 要 为 质谱 和 和 蛋白 质数 据 提供 分 析 框 架 、 可 视 化 和 统计 分 析 。 

基于 图 像 的 试验 : EBImage 等 包 主要 为 基于 图 像 的 表 型 分 型 ， 或 其 他 关于 图 像 (处理 ) 
任务 的 自动 化 提供 一 个 基础 框架 。 


4.3 JAR 到 Bioconductor 的 跨越 


读者 从 第 三 章 基 本 了 解 了 R 和 Bioconductor 的 编程 思路 以 及 两 者 之 间 的 差异 。 例 3-2 
与 例 3-1 相 比 ，Bioconductor 能 做 到 的 ， 用 一 般 的 R 编程 也 能 做 到 ， 只 是 Bioconductor 大 大 
简化 了 编程 ， 但 这 还 不 能 体现 Bioconductor 的 全 部 价值 。 从 下 面 的 例子 你 就 能 看 出 ， 有 些 
工作 用 Bioconductor 几 行 代码 即 可 轻松 解决 ， 但 是 如 果 用 普通 的 R 包 来 实现 ， 几 乎 就 是 不 
可 能 完成 的 任务 。 这 是 为 什么 呢 ? 原因 很 简单 。Bioconductor 的 核心 开发 人 员 花 费 了 大 量 精 
力 来 构建 Bioconductor 的 三 大 板块 架构 。 数 据 -算法 -注释 ， 这 三 个 环节 紧密 相 扣 ， 而 且 无 
颖 连接 :所 有 的 R 包 开 发 者 都 遵循 这 个 架构 ， 根 据 一 定 标准 开发 软件 ， 这 种 开发 模式 ， 任 
何 个 人 和 公司 都 不 可 能 比拟 。 这 就 是 为 什么 Bioconductor 不 能 被 普通 的 R 包 组 合 所 替代 。 

下 面 从 三 大 板块 角度 各 举 一 个 代表 性 的 扩展 包 (Biostrings、BiomaRt 和 AnnotationDbi) 
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的 应 用 实例 ,来 帮助 初学 者 适应 Bioconductor 的 编程 思维 ,对 于 一 名 Bioconductor 的 初学 者 ， 
熟悉 和 掌握 这 些 基础 的 包 就 是 实现 从 R 到 Bioconductor 跨越 的 第 一 步 。 


4.3.1 应 用 Biostrings 处 理 生 物 序列 


Bioconductor 中 的 软件 包 提 供 了 各 种 算法 和 程序 用 于 处 理 各 类 生物 数据 ,从 最 基本 的 序 
列 分 析 、 注 释 到 各 种 高 层次 的 应 用 (如 基因 芯片 处 理 )。 本 书 篇 幅 有 限 ， 不 可 能 一 一 举例 ， 
这 里 以 一 个 非常 基本 的 软件 包 Biostrings 为 例 讲解 软件 包 的 使 用 方法 。Biostrings 主要 用 于 
对 生物 分 子 序列 进行 定义 、 处 理 和 分 析 等 ， 它 有 一 个 基础 类 BString， 下 面 有 三 个 继承 类 : 
DNAString、RNAString 和 AAString， 分 别 对 应 DNA, RNA 和 氨基酸 序列 。 下 面 首先 安装 
Biostrings 包 ， 并 安装 人 类 基因 组 序列 数据 包 ( 版 本 号 H19) 和 人 类 基因 组 表达 谱 芯 片 
HG-U133A 的 探 针 数据 包 ， 然 后 通过 几 个 实例 帮助 读者 掌握 Biostrings 的 用 法 。 


# 安装 本 章 用 到 的 软件 包 : 
source("http://www.bioconductor.org/biocLite.R"); 
biocLite("Biostrings"); 
biocLite("BSgenome.Hsapiens. UCSC.hg 19"); 
biocLite("hgu133a2probe"); 

# 加 载 Biostrings 包 。 

library(Biostrings); 

8 加 载 人 类 基因 组 序列 数据 包 。 
library(BSgenome.Hsapiens.UCSC.hg19); 

# 加 载 HG-U133A 的 探 针 数 据 包 。 
library(hgul33a2probe); 

PRUH HHI HH HHH HUHHH HH HH IH HH HH HH HH HH HH HH HH HHH 


例 4-1: 基本 操作 : 互补 ， 反 向 ， 反 向 互补 ， 翻 译 ， 转 录 和 道 转录 。 
# 用 DNAString 生成 一 个 dna 对 象 。 
dna«c-DNAString(" TCTCCCAACCCTTGTACCAGT"); 
8 查看 这 个 对 象 。 
dna; 
2]-letter "DNAString" instance 
seq: TCTCCCAACCCTTGTACCAGT 
# 将 对 象 dna 由 DNAString 类 型 转 为 "RNAString" 类 型 ， 直 接 查 看 内 容 。 
Biostrings::dna2rna(dna); 
21-letter "RNAString" instance 
seq: UCUCCCAACCCUUGUACCAGU 
# 将 对 象 dna 中 的 DNA 转录 ， 产 生 一 个 "RNAString" 类 型 新 对 象 rna。 


rna<-transcribe(dna); 
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# 查看 rna 内 容 
rna 
21-letter " RNAString" instance 
seq: AGAGGGUUGGGAACAUGGUCA 
# 再 转 为 "DNAString" 类 型 ，RNA 序列 中 的 U 全 部 替换 为 T。 
rna2dna(rna); 
21-letter "DNAString" instance 
seq: AGAGGGTTGGGAACATGGTCA 
# 对 象 ma 逆转 录 ， 得 到 新 对 象 ED CDNAString" 2878). 
cD«-cDNA (rna); 
# 查看 ma 的 三 连 密码 子 。 
codons(rna); 


Views on a 21-letter RNAString subject 
subject: AGAGGGUUGGGAACAUGGUCA 


views: 
start end width 

1] 1 3 3 [AGA] 
[2] 4 6 3 [GGG] 
[3] 7 9 3 [UUG] 
[4] 10 12 3 [GGA] 
[5] 13 15 3 [ACA] 
[6] 16 18 3 [UGG] 


[7] 19 21 3 [UCA] 
# rna 翻译 ， 产 生 新 对 象 AA 〈"AAString" 类 型 )。 
AA <-translate(rna); 


# 查看 AA 的 内 容 。 
AA; 
7-letter " AAString" instance 
seq: RGLGTWS 
# dna 的 互补 ， 又 得 到 一 个 "DNAString" 类 型 的 对 象 。 
complement(dna); 
21-letter "DNAString" instance 
seq: AGAGGGTTGGGAACATGGTCA 
# dna 的 反 向 互补 序列 ， 还 是 "DNAString" 类 型 的 对 象 。 
reverseComplement(dna); 
21-letter " DNAString" instance 
seq: ACTGGTACAAGGGTTGGGAGA 
3 dna 的 反 向 序列 ， 还 是 "DNAString" 类 型 的 对 象 。 
reverse(dna); 
2]-letter "DNAString" instance 
seq: TGACCATGTTCCCAACCCTCT 
WISH 
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例 4-2: 统计 人 类 基因 组 数据 中 的 碱 基 频 率 。 

# 将 第 22 号 染色 体 全 序列 对 有 N 的 地 方 遮 盖 ， 以 方便 后 续 步 又 时 提高 工作 效率 。 
chr22NoN <-mask (Hsapiens$chr22, "N"); 

# 统计 第 2 号 染色 体 全 序列 中 的 所 有 基础 碱 基 [ATCG] 的 出 现 次 数 。 
alphabetFrequency(Hsapiens$chr22, baseOnly =TRUE); 


A Cc G T other 
9094775 8375984 8369235 9054551 0 


# 再 统计 染色 体 中 所 有 碱 基 的 出 现 次数 。 
alphabetFrequency(Hsapiens$chr22); 


A c G T M R wW S y 
9094775 8375984 8369235 9054551 0 0 0 0 0 
K V H D B N - 十 
0 0 0 0 0 0 0 0 
# 看 看 Hsapiens$chr22 是 否 只 有 基础 碱 基 [ATCG] CERO. 


hasOnlyBaseLetters(Hsapiens$chr22); 

[1] TRUE 

# 显示 Hsapiens$chr22 中 碱 基 〈 字 母 ) 种 类 (PETR). 

uniqueLetters(Hsapiens$chr22); 

[1] "A" "C" "G" "T" 

4 计算 Hsapiens$chr22 中 C 或 G 的 数量 ， 注 意 不 是 CG PE T. 

GC_content<-letterFrequency(Hsapiens$chr22, letters Z"CG"); 

# 查看 C 或 G 的 数量 。 

GC_content 

CIG 

16745219 

4 计算 Hsapiens$chr22 中 C 或 G 所 占 的 含量 〈 比 例 )。 

GC_pencentage<-letterFrequency(Hsapiens$chr22,letters="CG")/letterFrequency(Hsapiens$ 
chr22, letters ="ACGT"); 

# 查看 C 或 G 的 含量 。 

GC_pencentage 

CIG 

0.4799 

Jb HH 





例 4-3: 模板 匹配 ， 在 一 组 序列 中 匹配 一 个 模板 。 

# 生成 连续 7 个 碱 基 组 成 的 模板 。 

my. pattern 2 "TATAAAA"; 

# YE chr22NoN 中 匹配 该 模板 ， 读 者 可 自己 查看 结果 。 
mT = matchPattern(my_pattern, chr22NoN); 

# 计算 chr22NoN 中 匹配 该 模板 的 数量 。 
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countPattern(my_pattern, chr22NoN); 
[1] 5276 
# 在 chr22NoN 中 匹配 该 模板 且 人 允许 一 个 错 配 。 
mmT = matchPattern(my_pattern, chr22NoN, max.mismatch -1); 
# 另 一 种 方法 计算 匹配 的 数量 ， 可 以 看 到 多 匹配 了 很 多 。 
length(mmT); 
[1] 102178 
# 观察 前 5 A UCROA SIR Fr Br ei ORAE TE RA E o 
mismatch(my. pattern, mmT[1:5]); 

[[1]] 

[1] 2 

[[2]] 

[1] 5 


[[3]] 
[1] 7 


[[4]] 
[1] 1 


[E51] 
[1] 2 


8 左 侧 将 要 匹配 的 模板 序列 。 
Lpattern «- "CTCCGAG"; 
# 右 侧 将 要 匹配 的 模板 序列 。 
Rpattern <- "GTTCACA"; 


# 用 左右 模板 同时 匹配 Hsapiens$chr22， 要 求 中 间 的 序列 长 度 不 能 超过 500bp。 
LRsegments<-matchLRPatterns(Lpattern, Rpattern, 500, Hsapiens$chr22); 
# 查看 匹配 到 的 前 5 条 序列 。 


LRsegments[1:5]; 
Views on a 51304566-letter DNAString subject 

subject: 
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN. . . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 
views: 

start end width 
[1] 16602263 16602567 305 
[CTCCGAGGGTTTGAATGATTGTCCTTCACAAAGGA. . . TGGGACTCAAAAACACTGCTGCTGCTCGGTTCACA] 
[2] 17620584 17620854 271 
[CTCCGAGTAGCTGGGATTACAGGCACCTGCCACCA. . . TAAATTGAAATCTGCCCCTTGCTTTTCAGTTCACA] 
[3] 21741812 21742230 419 
[CTCCGAGTGCCAAGGCCAGCCCCCACAACCCTGGA. . . TACTTCGGCAAAAGCAAGATGCCCAAGGGTTCACA] 
[4] 23793654 23793992 339 
[CTCCGAGTTAACCGCCATTAACATTTTGAAGATTT. . . TTGAGAGCAGGTGTCTTCTACAAGCGAGGTTCACA] 
[5] 33218204 33218260 57 [CTCCGAGGCTGGCTCCTGTGCCCAAAGTCTTCCTCGCTGTCTCTGGGTATGTTCACA] 





例 4-4: 模板 匹配 ， 在 一 组 序列 中 匹配 一 组 模板 〈 必 须 长 度 一 样 )。 
# 提取 所 有 探 针 的 序列 ， 组 成 一 组 模板 ， 存 于 对 象 dict。 
dict<-hgul33a2probe$sequence; 
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# 计算 所 有 探 针 〈 序 列 ) 的 数量 。 


length(dict); 

[1] 247899 

# 查看 探 针 的 长 度 nchar(dict) 有 多 少 种 ， 只 有 一 种 是 25。 
unique(nchar(dict)); 

[1] 25 

# 查看 dict 的 前 三 项 内 容 〈 探 针 序列 )。 

dict[1:3]; 


[1] "CACCCAGCTGGTCCTGTGGATGGGA" "GCCCCACTGGACAACACTGATTCCT " 
[3] "TGGACCCCACTGGCTGAGAATCTGG" 


# 用 这 组 探 针 序列 构建 DNA 词典 (模板 )， 人 允许 最 大 有 一 个 错 配 。 
pdict«-PDict(dict, max.mismatch =1); 

# 用 词典 匹配 Hsapiens$chr22 序列 。 

vindex«-matchPDict(pdict, Hsapiens$chr22); 

# 每 个 模板 〈 探 针 序列 ) 对 Hsapiens$chr22 匹配 的 个 数 。 
count_index<-countIndex(vindex); 

# 计算 所 有 模板 匹配 的 总 数 。 

sum(count. index); 

[1] 51471 

# 看 看 前 3 个 模板 的 匹配 情况 ， 结果 全 是 0， 看 来 匹配 不 多 。 
count_index[1:3]; 

[1]000 


# 统计 一 下 匹配 数量 的 分 布 ， 可 以 看 到 大 部 分 (243903) 模板 的 匹配 数 都 是 0。 


table(count index); 


count index 


0 i 2 3 4 5 6 7 8 9 
243903 3549 187 100 23 25 5 3 7 4 
10 11 12 13 14 15 17 19 27 30 
5 4 2 2 3 1 1 1 2 1 
31 32 33 35 68 90 147 153 179 186 
1 1 1 1 1 1 d 1 1. 1 
190 194 196 197 205 215 250 265 275 284 
i $ 1 i 1 1 1 1 1 1 
289 297 309 310 324 331 336 338 365 384 
1 1 1 £ i i i 1 2 i1 
413 417 421 444 454 461 468 479 480 487 
1 1 1 i ni 2 1 1 1 1 
493 503 515 789 823 886 904 921 932 953 
1 1 1 1 1 1 1 1 1 1 
973 1146 1147 1206 1227 1270 1271 1284 1299  Á 1301 
1 1 1 1 1 1 1 1 1 1 
1304 1306 1311 1317 1958 2130 2760 2773 
1 1 1 1 1 1 1 1 


# 从 探 针 序列 中 提取 匹配 数 最 多 的 模版 对 应 的 序列 。 


dict[count. index == max(count, index)]; 
[1] "CTGTAATCCCAGCACTTTGGGAGGC" 


95 £L 
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# 用 这 个 序列 在 Hsapiens$chr22 匹配 ， 看 看 匹配 数量 ， 结 果 和 上 面 统计 分 布 最 后 一 个 


相同 。 
countPattern("CTGTAATCCCAGCACTTTGGGAGGC", Hsapiens$chr22); 
[1] 2773 
IEEE HH HH HH HH 


例 4-5: 搜索 回 文 结构 。 

# 计算 chr22_pals 长 度 ， 限 定 间隔 至 少 40bp。 

chr22_pals <-findPalindromes(chr22NoN, min.armlength =40, max.looplength =20); 
# 计算 chr22_pals 长 度 。 

nchar(chr22_pals); 


83 96 107 94 81 90 88 91 
101 105 109 111 107 103 99 295 291 87 83 81 86 83 85 91 
95 80 85 88 83 100 97 94 87 83 105 125 104 81 83 93 


# 查看 前 5 个 找到 的 回 文 结构 。 
chr22 pals[1:5]; 


88 136 91 88 106 100 100 88 97 81 82 81 85 89 93 97 


83 89 113 83 96 98 97 127 


[1] 
[25] 
[49] 


views on a 51304566-letter DNAString subject 
subject: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN. . . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 

views: 
start end width 


16288595 16288677 83 
16288595 16288690 96 
16288596 16288702 107 
16288609 16288702 94 
16288622 16288702 81 


[GCGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGC. . 
[GCGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGC. . 
[CGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGCG. . 
[CGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGCG. . 
[CGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGCG. . 


. GGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGCG] 
. GGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGCG] 
. CGGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGC] 
. CGGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGC ] 
. CGGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGC ] 


# 查看 回 文 结构 序列 中 的 间隔 长 度 。 
palindromeArmLength(chr22_pals); 


[1] 83 96 107 94 81 90 88 91 88 136 91 88 106 100 100 88 97 
[18] 81 82 81 85 89 93 397 101 105 109 111 107 103 99 395 91 87 
[35] 83 81 86 83 85 91 83 389 113 83 96 98 97 127 95 80 85 
[52] 88 383 100 97 94 87 83 105 125 104 81 $83 2393 


8 统计 回 文 结 构 中 的 所 有 基础 碱 基 LATCG] 的 出 现 次 数 。 
ans«-alphabetFrequency(chr22 pals, baseOnly =TRUE); 

# 查看 基础 碱 基 的 频率 。 

ans; 

PAUR URUAR REDIERE REB HH HI HH HHH HHH HH ERE HH HH HH HH HHH HHH 


例 4-6: 序列 比 对 。 

# 用 AAString 函数 生成 一 个 "AAString" 对 象 aal。 

aal <-AAString("HXBLV YMGCHFDCXVBEHIKQZ"); 
* 用 AAString 函数 生成 一 个 "AAString" 对 象 aa2。 

aa2 «-AAString("'QRNYMYCFQCISGNEYKQN?^); 
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# 序列 全 局 比 对 ， 应 用 和 矩阵"BLOSUM62" 打 分 ， 要 求 gap open 罚 分 为 3。 
needwunsQS(aal, aa2, "BLOSUM62", gappen =3); 


Global PairwiseAlignments (1 of 1) 
pattern: [1] HXBLVYMGCHFDCXV-BEHIKQZ 
subject: [1] QRN--YMYC-FQCISGNEY-KQN 
score: 39 


* Hj DNAString 函数 生成 一 个 "DNAString" 对 和 象 dnal。 
dnal <-DNAString("CTCCGAGGGTTTGAATGAT"); 


# 用 DNAString 函数 生成 一 个 "DNAString" 对 和 象 dna2. 
dna2 «-DNAString("CTCCGAGTAGCTGGGATTA"); 


8 构建 4X4 的 矩阵 DNA 打分 矩阵 。 

mat «-matrix(-5L, nrow =4, ncol =4); 

for (i in seq_len(4)) mat[i, i] «-OL; 

rownames(mat) «-colnames(mat) «-DNA. ALPHABET|[1:4]; 


# 序列 全 局 比 对 ， 应 用 矩阵 mat 打分 ， 要 求 gap open 114) 2g 0. 
needwunsQS(dnal, dna2, mat, gappen =0); 


Global PairwiseAlignments (1 of 1) 
pattern: [5] GAGGGTTTGAATGA 
subject: [15] ----GA----- T---T-A 
score: O 


HERE 





例 4—7: 读 写 序列 文件 (Fasta 和 Fastq 格式 ) 
# 指定 文件 的 目录 (Biostrings 安装 目录 中 的 extdata 子 目 录 ) 和 文件 名 (someORF fa)。 
filepath«-system.file("extdata", "someORF.fa", package ="Biostrings"); 
8 显示 上 面 FASTA 文件 中 的 数据 信息 。 
fasta.info(filepath); 
# 读 取 FASTA 文件 。 
x «-readDNAStringSet(filepath); 
# 查看 FASTA 文件 的 内 容 。 
X， 

A DNAStringSet instance of length 7 

width seq names 

[1] 5573 ACTTGTAAATATATCTTTTAT...ATCGACCTTATTGTTGATAT YALOO1C TFC3 SGDI... 
[2] 5825 TTCCAAGGCCGATGAATTCGA. ..AAATTTTTTTCTATTCTCTT YALOO2W VPS8 SGDI... 
[3] 2987 CTTCATGTCAGCCTGCACTTC...TACTCATGTAGCTGCCTCAT YALOO3W EFB1 SGDI... 
[4] 3929 CACTCATATCGGGGGTCTTAC...CCCGAAACACGAAAAAGTAC YALOOSC SSAL SGDI... 
[5] 2648 AGAGAAAGAGTTTCACTTCTT...TAATTTATGTGTGAACATAG YALOO7C ERP2 SGDI... 


[6] 2597 GTGTCCGGGCCTCGCAGGCGT...TTTTGGCAGAATGTACTTTT YALOOSW FUN14 SGD... 
[7 2780 CAAGATAATGTCAAAGTTAGT. . . AAGGAAGAAAAAAAAATCAC YALOO9W SPO7 SGDI... 


# 命名 输出 文件 。 
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outl <- 'examplel.fasta'; 


# 把 序列 输出 到 文件 out1， 格 式 还 是 FASTA。 
writeXStringSet(x, out1); 


# 指定 文件 的 目录 和 文件 名 (s_1_sequence.txt)， 这 个 是 FASTQ X fF. 


filepath<-system.file("extdata", "s 1 sequence.txt", package —"Biostrings") ; 


# 显示 上 面 FASTQ 文件 中 的 数据 信息 。 

fastq.geometry(filepath); 

[1] 256 36 # 表 示 数 据 有 256 条 reads， 测 序 长 度 是 36bp 

# 读 取 FASTQ 文件 。 

x <-readDNAStringSet(filepath, format ="fastq"); 

# 查看 FASTQ 文件 ， 结 果 不 在 这 里 显示 。 

X; 

# 从 第 1 号 染色 体 上 按照 固定 长 度 CObp) 依次 取 短 序列 (ead). 的 起 点 《向 量 )。 
sw. start«-seq.int(1, length(Hsapiens$chr1) -50, by =50); 

# 从 起 点 开始 取 read， 每 个 长 度 为 10bp， 注意 sw 的 格式 是 "XStringViews"。 
sw<-Views(Hsapiens$chr1, start =sw_start, width =10); 

# 变量 sw 的 格式 从 "XStringViews" 转 换 为 "XStringSet"。 
my_fake_shortreads<-as(sw, "XStringSet"); 

# 按照 "ID" 加 开头 6 个 数字 的 格式 ， 得 到 一 组 新 名 称 。 
my_fake_ids<-sprintf("ID%06d", seq len(length(my. fake shortreads))); 

# 用 新 名 称 替换 旧名 称 。 

names(my fake shortreads) <-my_fake_ids; 

# 查看 第 500000 到 500005 条 数据 ， 结 果 不 在 这 里 显示 。 

my. fake shortreads[500000:500005]; 

8 命名 输出 文件 。 

out2 «- 'example2.fastq'; 

# 把 序列 输出 到 文件 out2， 格 式 是 FASTQ， 但 是 缺少 质量 信息 。 
writeXStringSet(my fake shortreads, out2, format ="fastq"); 

# 产生 质量 信息 。 

my. fake quals <- rep.int(BStringSet(" DCBA 9?»-«;"), length(my fake shortreads)); 
# 查看 my fake quals 内 容 ， 结 果 不 在 这 里 显示 。 

my. fake quals; 

# 命名 输出 文件 。 

out3 «- 'example3.fastq'; 

# 把 序列 输出 到 文件 out3， 格 式 还 是 FASTQ, — 这 次 含有 质量 信息 。 
writeXStringSet(my fake shortreads, out3, format ="fastq", qualities =my_fake_quals); 
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4.3.2 应 用 BiomaRt 获取 实验 数据 与 注释 信息 


获取 数据 是 生物 信息 分 析 的 第 一 步 ， 经 常 使 用 的 一 个 示例 数据 是 Bioconductor 中 的 慢 
性 淋巴 细胞 白血病 《Chronic Lymphocytic Leukemia, CLL) 实验 数据 包 ， 其 安装 办 法 是 在 启 
动 R 主 程序 并 运行 : 


例 4-8: 

# 安装 CLL 数据 包 。 

source("http://ww w.bioconductor.org/biocLite.R"); 
biocLite("CLL"); 

8 载 入 CLL 数据 包 。 

library(CLL) ; 

# 载 入 数据 《〈 库 文件 中 附带 的 示例 数据 )。 
data(CLLbatch); 


# 查看 数据 内 容 与 结构 。 


phenoData(CLLbatch); 
An object of class "AnnotatedDataFrame" 
sampleNames: CLL10.CEL CLL11.CEL ... CLLS.CEL (24 total) 


varLabels: sampie 
varMetadata: labelDescription 


从 上 图 ， 我 们 可 以 看 到 CLL 数据 集 一 共有 24 个 样本 ， 在 实际 应 用 中 ， 需 要 读 取 所 有 
样本 对 应 的 CEL 文件 ( 见 第 五 章 例 5-1)。 把 一 些 实验 数据 制作 成 包 , 便于 用 户 下 载 和 使 用 ， 
也 便于 开发 者 开发 和 测试 算法 。 但 是 对 于 比较 大 的 数据 或 者 经 常 动 态 更 新 的 数据 或 注释 ， 
包 就 显得 力不从心 。 一 个 简单 的 解决 办 法 : Bioconductor 只 需要 提供 一 个 包 就 能 实现 
Bioconductor 与 所 有 在 线 生 物 数据 库 的 接口 , 用 户 就 可 以 根据 需要 通过 操作 这 个 包 获 取 数 据 
和 注释 信息 。 这 样 大 大 简化 了 数据 和 注释 信息 的 获取 ， 但 是 不 同 的 数据 库 对 外 提供 数据 的 
标准 和 方式 都 不 同 ， 如 何 统 一 生物 信息 数据 库 的 数据 访问 就 成 为 了 一 个 关键 问题 。 

因此 ， 有 必要 介绍 一 下 由 欧洲 生物 信息 研究 所 〈EBI) 和 冷泉 港 实验 室 (ESHL) 共同 
开发 的 BioMart 数据 管理 系统 。BioMart 系统 可 以 管理 任意 格式 的 数据 库 ， 也 可 以 按照 不 同 
的 需求 安装 不 同 的 查询 工具 和 界面 ， 由 于 其 内 部 采用 关系 型 的 数据 组 织 模式 ， 所 以 更 易于 
进行 复杂 的 数据 挖掘 研究 ， 读 者 可 以 通过 官方 网 站 Chttp//www.biomart.org) 进一步 了 解 
BioMart。 当 前 各 主要 生物 信息 数据 库 ( 如 EBI 维护 的 Ensembl 数 据 库 ) 都 提供 了 基于 BioMart 
管理 系统 的 批量 数据 访问 服务 , 这 些 数据 库 也 可 以 统称 为 BioMart 数据 库 。 为 了 更 好 地 理解 
和 掌握 BioMart， 下 面 用 一 个 实例 来 介绍 它 的 使 用 ， 这 个 实例 的 目的 是 获得 猪 转录 组 所 有 的 
3'UTR 序列 〈 详 见 例 5-21). 

登录 数据 库 所 在 的 官方 网 站 〈http:Wwww.ensembl.org/)， 点 击 其 主页 上 导航 菜单 中 的 链 
接 “BioMart” 可 以 进入 图 4-2 所 示 的 页 面 ， 页 面 的 正 下 方 底部 提供 了 YouTube 视频 教程 。 
数据 以 及 注释 信息 的 获取 通过 三 步 设 置 就 可 以 实现 : 
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第 一 步 ,点 击 左 侧 导 航 条 中 “Dataset” 选 项， 从 右 侧 表单 中 选择 数据 库 DATABASE”) 
和 数据 集 (“DATASET”)。 图 4-2 中 ,选择 的 数据 库 是 ensembl 基因 组 数据 库 (“Ensembl Genes 
70”), 数据 集 是 猪 的 基因 组 〈 含 转录 组 ) 数据 [“Sus scrofa genes (SscrofalO.2)" ]. 
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Sus scrofa genes (Sscrofa10.2) Sus scrofa genes (Sscrofa10.2) 

Filters 

[None selected] 

Attributes 


[None selected] 


Dataset 
[None Selected] 





Datasets -> Filters (filtering and inputs) -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


图 4-2 iE “Dataset” HIH 


第 二 步 ， 点 击 左 侧 导航 条 中 “Filters” 选 项 (图 4-3)， 该 选项 提供 了 多 种 筛选 条 件 ， 只 
保留 符合 条 件 的 《对 应 输出 文件 的 一 行 )。 比 如 “REGION” 选 项 ， 可 以 选择 只 保留 某 个 染 
色 体 上 的 数据 ， 还 可 以 只 选择 一 段 染 色 体 上 的 基因 ; 再 比如 “GENE” 选 项 ， 可 以 根据 基因 
的 某 种 ID 选择 下 载 这 部 分 ID 对 应 的 数据 。 本 例 中 ， 我 们 不 做 任何 筛选 ， 保 留 全 部 数据 。 
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Dataset 
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Datasets -> Filters {filtering and inputs) -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


图 4-3 设 定 “Filters” 选 项 
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第 三 步 ， 点 击 左 侧 导航 条 中 “Attirbutes” 选 项 ， 根 据 多 种 条 件 筛选 数据 的 属性 〈 对 应 
输出 文件 的 一 列 ) 下 载 所 需要 的 数据 (序列 和 描述 信息 )。 先 选中 “Sequences” 选 项 中 的 三 
项 ， 第 一 项 是 “Header Information” > “Transcript Information" -> “Ensembl Transcript ID”; 
第 二 项 是 “Header Information" > “Gene Information" > “ Description "; 第 三 项 是 
“SEQUENCES” > “Sequences” > “3’ UTR" (Él 4-4)。 全 部 条 件 设 定 后 ， 可 以 点 击 主 菜 
单 左 上 角 的 “Results” 选 项 ， 浏 览 前 10 行 数据 (图 4-5)， 并 设 定数 据 获 取 的 方式 。 本 例 将 
全 部 数据 以 文件 形式 导出 ， 文 件 格式 是 “FASTA” 格 式 。 


a 
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Dataset 
[None Selected] 








Datasets -> Filters (filtering and inputs) -> Attributes (desired output) -> Results 


Biornart tutorial: YouTube | YouKu 


图 4-4 设 定 “Attributes” 选 项 下 载 序 列 和 描述 








Dataset 
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Attributes 
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Dataset 
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Datasets -> Filters (filtering and inputs) -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


图 4-5 ”数据 下 载 前 预览 
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登录 网 站 下 载 数据 的 过 程 完全 可 以 通过 简单 编程 而 实现 ， 下 面 一 个 例子 ， 就 是 演示 如 
何 使 用 Bioconductor 的 biomaRt 包 实 现 这 一 过 程 的 ( 例 4-9)。biomaRt 包 不 仅 可 以 轻松 获取 
数据 库 中 的 数据 和 注释 ， 还 能 够 获取 相关 数据 或 注释 在 不 同 数 据 库 间 的 关联 信息 〈 见 例 
5-22)， 为 生物 数据 和 注释 的 获取 提供 了 极 大 的 便利 ， 这 是 一 般 的 R 扩展 包 无 法 实现 的 。 


例 4-9: 

# 安装 biomaRt 包 。 

source("http://www.bioconductor.org/biocLite.R"); 

biocLite("biomaRt"); 

8 载 入 biomaRt 包 。 

library(biomaRt) ; 

# 获取 当前 可 用 的 数据 源 ， 一 个 数据 源 叫 做 一 个 mart。 

marts <- listMarts(); 

8 只 查看 前 几 个 。 

head(marts); 

# 使 用 ensembl 数据 源 ， 如 果 知 道 用 这 个 ， 前 面 没 必 要 查看 所 有 数据 源 。 

ensembl mart <- useMart(biomart-"ensembl"); 

# 获取 ensembl mart 中 可 用 数据 集 。 

datasets <- listDatasets(ensembl mart); 

# 查看 前 10 个 。 

datasets[1:10, ]; 

# 使 用 猪 基 因 组 数据 集 。 

dataset pig <- useDataset("sscrofa gene ensembl", mart= ensembl mart); 

# 获取 dataset pig 数据 集 上 可 用 的 筛选 器 。 

filters <- listFilters(dataset pig); 

8 只 查看 前 几 个 ， 后 面 没 用 到 任何 筛选 器 。 

head(filters); 

# 获取 可 选择 的 属性 〈 列 )。 

attributes <- listAttributes(dataset pig); 

8 只 查看 前 几 个 。 

head(attributes); 

4 从 dataset. pig 数据 集中 提取 ensembl. transcript. id 和 description 信息 。 

idlist <- getBM(attributes- c("ensembl transcript id", "description"), mart- dataset. pig); 

# 从 dataset. pig 数据 集中 根据 ensembl transcript id 提取 序列 。 

seqs-getSequence(id-idlist["ensembl transcript id"],type-"ensembl transcript id",seqType 
-"3utr", mart = dataset. pig); 

8 去 除 没 有 序列 内 容 的 数据 记录 。 

seqs = Seqs[!seqs[, 1]=="Sequence unavailable", ]; 


# 去 除 没有 UTR 注释 的 数据 记录 。 


第 四 章 “Bioconductor 简介 103 四 


seqs = seqs[!seqs[ ,1]=="No UTR is annotated for this transcript", ]; 

8 提取 序列 的 内 容 。 

x-seqs[ ,1]; 

# 提取 序列 的 ID。 

names(x)-seqs[ ,2]; 

# 结果 存 入 文件 "UTR3seqs-1.fa"， 格 式 为 fasta。 

writeXStringSet(DNAStringSet(x, use.names=TRUE),"UTR3seqs-1 fa"); 

# 同时 提取 对 应 3'UTR 序列 的 cDNA 序列 。 

cDNAseqs = getSequence(id-idlist["ensembl transcript id"], type-"ensembl transcript id", 
seqType-"cdna", mart = dataset. pig); 

x-cDNAseqs[ ,1]; 

names(x)-cDNAseqs[ ,2]; 

# 结果 存 入 文件 "UTR3seqs-1.fa"， 格 式 为 fasta。 

writeXStringSet(DNAStringSet(x, use.names=TRUE), " transcriptom.fasta"); 

读者 运行 例 4-9 并 对 比 两 次 下 载 的 结果 会 发 现 ， 编 程 下 载 的 数据 没有 添加 注释 信息 ， 
其 实 该 信息 已 经 包含 在 变量 “idlist” 中 ， 只 需 稍稍 改动 一 点 程序 ， 即 可 以 得 到 含有 注释 信 
AA. EH] biomaRt 包 应 特别 注意 两 点 : 其 一 是 该 包 很 多 函数 运行 速度 严重 依赖 网 络 
速度 ， 有 些 在 线 数据 库 对 每 次 下 载 的 数据 量 的 大 小 作出 了 限制 ， 在 批 处 理 数 据 的 过 程 中 ， 
还 可 能 发 生 不 可 意料 的 错误 ; 其 二 是 biomaRt 包 中 可 用 的 数据 库 和 数据 集合 的 版 本 与 该 数 
据 库 官方 网 站 的 版 本 不 保证 同步 更 新 ， 如 biomaRt 包 中 Ensembl 数据 库 版 本 已 经 更 新 到 
“ENSEMBL GENES 73 ”而 官方 网 站 的 BioMart 数 据 库 则 可 能 还 是 "ENSEMBL GENES 70", 
因此 使 用 数据 时 ， 一 定 要 记录 好 数据 库 版 本 ， 否 则 将 来 无 法 重复 计算 结果 。 


4.3.3 应 用 AnnotationDbi 生成 注释 包 


基因 芯片 给 出 的 分 析 结 果 都 是 针对 芯片 探 针 组 的 ， 每 个 探 针 组 只 有 一 个 公司 自己 定义 
的 ID， 既 没有 序列 信息 ， 也 不 知道 来 自 于 该 物种 的 哪 条 基因 ， 因 此 需要 在 注释 包 的 帮助 下 
对 芯片 处 理 结 果 进 行 注释 。 构 建 一 个 完整 的 芯片 注释 信息 通常 需要 三 个 包 ， 它 们 有 统一 的 
命名 方式 , 例如 Affymetrix 公司 的 人 类 基因 组 表达 芯片 hgu133plus2 (型 号 )， 它 对 应 的 三 个 
包 是 hgul33plus2.db. hgul33plus2cdf 和 hgu133plus2probe。 实 际 使 用 时 ， 主 要 用 “.db” 那 个 
包 ， 如 何 注释 芯片 的 内 容 将 在 下 一 章 详细 讲解 。 

主流 大 公司 的 芯片 ， Bioconductor 通常 都 有 对 应 的 注释 包 。 但 是 对 于 某 些 非 主流 芯片 ， 
例如 Affymetrix 公司 的 人 类 基因 组 表达 芯片 PrimeView (型 号 )， Bioconductor 没有 对 应 的 
注释 包 ， 需 要 用 户 自 行 创 建 。 PrimeView 芯片 的 最 大 的 特点 就 是 ， 它 全 面 覆 盖 人 类 基因 组 
中 已 经 注释 了 的 基因 ， 包 括 最 新 被 注释 的 基因 ; 对 于 成 熟 注 释 的 基因 ， 每 个 探 针 组 都 由 11 
个 独立 的 探 针 组 成 ， 而 对 于 其 他 基因 ， 每 个 探 针 组 由 9 个 探 针 组 成 ， 重 复 性 及 可 靠 性 极 高 ; 
不 完全 兼容 Affymetrix 公司 的 另外 两 种 人 类 基因 组 表达 芯片 Genome U133 和 
Human Gene 1.0 STe RIEZ BHA, Bioconductor 的 注释 包 当 中 还 只 有 primeviewcdf 及 
primeviewprobe 两 个 文件 ， 缺 少 相 应 的 primeview.db 注释 文件 。 因 此 ， 用 户 只 有 通过 
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AnnotationDbi 包 来 自行 生成 。 

首先 ， 下 载 注释 文件 到 工作 目录 CWworkingdirectoy 中 。 下 载 链 接 如 下 : 
http://www.affymetrix.com/Auth/analysis/downloads/na32/ivt/PrimeView.na32.annot.csv.zip o 

然后 ， 解 压缩 ， 得 到 一 个 文本 文件 。 该 文本 文件 共 包 括 49397 (2441449372) ÍT, 24 
行 注释 , 一行 标 题 ，49372 行 数据 ， 每 行 数据 对 应 一 个 探 针 信息 。 探 针 的 第 一 列 是 该 探 针 的 
唯一 标示 ， 即 探 针 ID (Probe.Set.ID), 后 面 每 列 都 是 探 针 ID 对 应 的 一 种 数据 库 的 基因 标示 。 
这 个 就 是 第 二 章 讲 到 的 ID 映射 (ID mapping)， 这 里 不 需要 这 么 多 种 映射 ， 只 选择 最 常用 的 
一 种 即 可 。 例 4-10， 选 用 Entrez 的 ID 〈Entrez.Gene)， 最 后 得 到 探 针 ID 与 Entrez.Gene 的 
映射 文件 。 这 个 映射 文件 是 包含 两 列 内 容 的 以 “Tab” 分 隔 符 间隔 的 文本 文件 ， 第 一 列 是 探 
针 ID， 第 二 列 是 Entrez.Gene， 无 行 号 ， 无 列 名 。 


例 4-10: 

# 读 入 解压 后 的 注释 文件 。 

probeset <- read.csv("c:/workingdirectory/PrimeView.na32.annot.csv", comment.char ="#"); 

# 查看 列 名 ， 可 以 看 到 每 个 探 针 可 以 对 应 到 多 少 种 公开 数据 库 的 ID 上 。 

colnames(probeset); 

# 只 保留 probeset 两 列 ， 探 针 ID (probesetid) 和 Entrez 数据 库 的 ID(Entrez.Gene)。 

Id mapping <- probeset[,c("Probe.Set.ID", "Entrez.Gene")]; 

# 将 Entrez.Gene 一 列 信息 中 的 空白 字符 ("Ns+") ， 转 为 空 字符 CU 

Id_mapping$Entrez.Gene <- gsub("\\s+","", Id_mapping$Entrez.Gene); 

# Entrez.Gene 一 列 信息 不 为 空 的 数据 保留 下 来 。 

Id mapping <- Id_mapping[Id_mapping$Entrez.Gene!="---", ]; 

# 提取 所 有 的 Entrez.Gene。 

]<-as.character(Id_mapping$Entrez.Gene); 

# 通过 查看 ， 发 现 有 些 探 针 ID 对 应 多 个 Entrez.Gene。 

head(l[!grepl("^\d+$", 1)]); 

# 先 将 以 "W/" 分 割 的 多 个 Entrez.Gene 分 割 开 。 

entrez«-strsplit(as.character(Id mappingS$Entrez.Gene),"///"); 

# entrez 中 所 有 对 象 的 名 称 赋 值 为 探 针 ID。 

names(entrez)«-as.character(Id mapping$Probe.Set.ID); 

# 由 于 无 法 直接 将 对 象 entrez 从 list 格式 转换 成 matrix 格式 ， 先 将 list 内 的 元 素 转 成 以 
探 针 ID 及 Entrez.Gene 为 列 名 的 matrix， 然 后 再 合并 成 一 个 长 表 。 为 了 提高 效率 ， 要 用 到 
yapply 函数 并 行 运算 ， 下 面 先 定义 一 个 yapply 函数 。yapply 函数 的 作用 是 对 list 操作 时 可 以 
同时 调用 其 名 称 以 及 索引 值 ， 该 函数 表达 人 简洁、 功能 强大 ， 但 语法 复杂 ， 初 学 者 可 以 跳 过 
下 面 2 句 。 

yapply«-function(X,FUN, ...) { 

index «- seq(length.out-length(X)) 
namesX «- names(X) 
if(is.null(namesX)) namesX <- rep(NA,length(X)) 
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FUN <- match.fun(FUN) 
fnames «- names(formals(FUN)) 
if( ! "INDEX" %in% fnames ){ 
formals(FUN) <- append( formals(FUN), alist(INDEX-))  ] 
if( ! "NAMES" %in% fnames )( 
formals(FUN) <- append( formals(FUN), alis(NAMES-)) } 
mapply(FUN,X,INDEX-index, NAMES-namesX, MoreArgs-list(...)) ); 

# 调用 上 面 定义 好 的 yapply 函数 ， 实 现 需要 的 功能 。 

entrez<-yapply(entrez, function(.ele) (cbind(rep(NAMES, length(.ele)), gsub(" ",""..ele))] ); 

8 转换 成 两 列 的 matrix. 

entrez«-do.call(rbind, entrez); 

# 去 除 重 复 记 录 。 

entrez«-unique(entrez); 

# 结果 输出 ， 最 后 得 到 一 个 ID 映射 文件 。 

write.table(entrez,file="primeviewHumanGeneExprs.txt",sep="\t",col.names=F,row.names=F, 
quote=F); 

最 后 ， 调 用 Bioconductor 的 AnnotationDbi 包 生 成 注释 文件 primeview.db。 例 4-11 就 是 
生成 注释 文件 的 代码 , 这 个 过 程 非常 慢 , 请 耐心 等 待 。 另 外 , 考虑 到 本 书 的 写作 基于 R2.15.1 
平台 , 例 4-11 (基于 R2.14.1 以 前 版 本 ) 已 经 不 再 兼容 , 读者 运行 下 列 代码 会 遇 到 错误 提示 ， 
因此 不 必 运 行 例 4-11 的 代码 。 


例 4-11: 

# 安装 并 加 载 相应 的 R 包 。 

source("http://bioconductor.org/biocLite.R"); 

biocLite(" AnnotationDbi"); 

library(AnnotationDbi); 

8 查看 所 有 的 可 用 模版 。 

available.chipdbschemas(); 

# 在 当前 目录 下 新 建 叫做 primeview 的 文件 夹 。 

dir.create("primeview"); 

# 根据 之 前 生成 的 primeviewHumanGeneExprs.txt, ^E —^ SQLite 数据 库 ， 注 释 信 息 
来 源 自 human.db0， 模 版 采用 "HUMANCHIP_DB"。 这 一 步 耗 时 相当 长 。 这 步 结 束 后 ， 可 以 
在 primeview 的 文件 夹 中 看 到 一 个 结果 文件 primeview.sqlite。 

populateDB("HUMANCHIP_DB",affy=F,prefix="primeview",fileName="primeviewHuman 
GeneExprs.txt", metaDataSrc-c( 'DDBSCHEMA"-"HUMANCHIP DB","ORGANISM"-"Homo 
sapiens","SPECIES"-"Human","MANUFACTURER''-" Affymetrix","CHIPNAME"-"PrimeView 
Human Gene Expression Array", "MANUFACTURERURL'"-"http://www.affymetrix.com"), 
baseMapType-"eg", outputDir-"primeview"); 


# 生成 数据 库 种 子 ， 指 明生 成 模板 "HUMANCHIPDB"， 数 据 包 的 名 称 "primeview.db" 
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以 及 版 本 号 "1.0.0" 等 相关 信息 。 

seed«-new(" AnnDbPkgSeed",Package-"primeview.db", Versionz"1.0.0",PkgTemplate- 
"HUMANCHIP.DP", AnnObjPrefix-"primeview"); 

# 在 primeview WXX, ÆR IT) primeview.db 文件 。 

makeAnnDbPkg(seed, file.path("primeview", "primeview.sglite"), dest dir-"primeview"); 

通过 例 4-10 和 4-11， 我 们 详细 了 解 了 生成 一 个 基因 芯片 注释 文件 的 一 般 过 程 
(PrimeView.na32.annot.csv->primeviewHumanGeneExprs.txt->primeview.sqlite->primeview.db )， 
这 个 过 程 不 仅 限 于 Affymetrix 公司 的 芯片 ， 适 合 于 任何 公司 的 任何 产品 。 其 实 ，Affymetrix 
公司 的 芯片 ， 有 其 特殊 性 ， 生 成 它 的 注释 文件 的 过 程 更 为 简单 和 方便 ，bioconductor 增加 了 
AnnotationForge 包 ( 基 于 R2.15.2 及 以 上 平台 ), 支持 一 步 生成 注释 文件 。 例 4-12 中 的 代码 
就 实现 了 上 述 功 能 ， 它 相当 于 执行 了 例 4-10 与 4-11. 


例 4-12: 

# 安装 并 加 载 相应 的 R 包 。 

source("http://bioconductor.org/biocLite.R"); 

biocLite(" AnnotationDbi"); 

biocLite(" AnnotationForge"); 

library(AnnotationDbi); 

library(AnnotationForge); 

8 查看 所 有 的 可 用 模板 。 

available.chipdbschemas(); 

# 在 当前 目录 下 新 建 叫做 primeviewdb 的 文件 夹 。 

dir.create("primeviewdb"); 

# 直接 使 用 Affymetrix 芯片 注释 文件 ， 通 过 自动 处 理 ， 在 primeviewdb 文件 夹 中 生成 
sqlite 文件 。 

# 在 primeviewdb 的 文件 夹 ， 生 成 最 后 的 primeview.db 文件 。 

makeDBPackage("HUMANCHIP_DB",affy=TRUE,prefix="primeviewdb",fileName="Prime 
View.na32.annot.csv",baseMapType-"eg" ,outputDir-"primeviewdb" versionz" 1.0.0", manufacturer 
—"affymetrix", chipName- "PrimeViewHumanGeneExpressionArray", manufacturerUrl-"http://www. 
affymetrix.com"); 

# 输出 本 章 的 会 话 信息 。 

sessionInfo(); 

R version 3.0.0 (2013-04-03) 

Platform: x86 64-apple-darwin10.8.0 (64-bit) 


locale: 
[1] en. US. UTF-8/en US.UTF-8/en US.UTF-8/C/en US.UTF-8/en US.UTF-8 


attached base packages: 
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[1] parallel stats graphics grDevices utils datasets methods base 


other attached packages: 

[1] AnnotationForge_1.2.0 org.Hs.eg.db_2.9.0 RSQLite_0.11.3 

[4] DBI 0.2-5 AnnotationDbi_1.22.2 Biobase 2.20.0 
[7] BiocGenerics_0.6.0 


loaded via a namespace (and not attached): 
[1] IRanges_1.18.0 stats4_3.0.0 — tools 3.0.0 
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Bioconductor 最 初 就 是 设计 用 来 分 析 基 因 芯 片 数 据 的 ， 因 此 芯片 分 析 反 映 了 
Bioconductor 的 设计 理念 和 编程 思想 。 尽 管 世 片 分 析 现 在 已 经 不 再 是 生物 信息 学 的 热点 问 
题 ， 本 书 还 是 把 这 部 分 内 容 作为 重要 的 基础 篇 章 详 细 讲 解 ， 希 望 读者 ， 特 别 是 初学 者 ， 通 
过 这 部 分 内 容 的 学 习 从 整体 上 掌握 Bioconductor 的 编程 思想 。 本 章 先 从 一 个 简单 的 例子 开 
始 ， 使 读者 可 以 初步 了 解 使 用 Bioconductor 完成 基因 芯片 预 处 理 的 流程 ， 并 且 会 发 现 整 个 
过 程 非 常 简单 ， 接 着， 详细 讲解 芯片 数据 预 处 理 与 芯片 数据 分 析 等 内 容 ; 最 后 ， 用 几 个 实 
际 项 目 让 读者 更 深入 了 解 实际 工作 中 会 遇 到 的 芯片 处 理 问题 ， 以 及 如 何 用 学 到 的 知识 解决 
这 些 问题 。 考 虑 到 Affymetrix 表达 谱 局 片 的 代表 性 ， 本 章 乃 至 本 书 的 几乎 所 有 例子 都 集中 
到 此 类 芯片 。 学 习 过 本 章 内 容 ， 读 者 即 可 掌握 芯片 分 析 的 整体 框架 ， 自 行 学 习 其 他 厂商 或 
种 类 (例如 SNP 芯片 或 ChIP-chip 芯片 ) 的 芯片 处 理 方法 。 


5.1 快速 入 门 


例 5-1 从 数据 包 CLL 中 载 入 芯片 数据 ， 完 成 预 处 理 ， 最 后 获得 基因 【〈 欣 针 组 ) KAHE 
阵 〈 见 2.3.2)。 注 意 ， 探 针 组 表达 矩阵 的 行 对 应 的 是 探 针 组 ， 而 不 是 基因 ， 基 因 和 探 针 组 的 
关系 见 $.2.1。 这 段 程序 从 载 入 原始 数据 CCEL 文件 ) 开始 ,通过 预 处 理 得 到 基因 表达 矩阵 ， 
是 芯片 数据 处 理 的 一 个 必须 步骤。 


例 5-1: 

# 安装 并 加 载 所 需 及 包 。 
source('http://Bioconductor.org/biocLite.R"); 

biocLite(^CLL") ; 

# CLL 包 会 自动 调用 affy 包 ，affy 包含 有 后 面 需要 的 rma 0 函数 。 
library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch) ; 

# 调用 RMA 算法 来 对 数据 预 处 理 《〈 详 见 5.3.3). 

CLLrma <- rma(CLLbatch) ; 

# 读 取 预 处 理 后 所 有 样品 的 基因 《实际 上 是 探 针 组 ) 表达 值 。 
e <- exprs(CLLrma); 

# 查看 部 分 数据 。 

e[1:5, 1:5] 
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THE CLLIO.CEL CLLII.CEL CLLI2.CEL CLLI3.CEL CLLI4.CEL 
i4 100 g at — 7.496 7.945 7.861 7.990 7.890 
## — 1000 at 7.251 8.299 8.474 8.131 8.051 
1H — 1001 at 4.457 4.518 4.358 4.651 4.474 
## — 1002 fat 3.985 3.982 4.065 4.132 4.065 
1H — 1003 s at 6.437 6.201 6.412 6.314 6.105 


例 5-1 中 用 到 的 慢性 淋巴 细胞 白血病 〈Chronic lymphocytic leukemia, CLL) 数据 集 ， 
采用 了 Affymetrix 公司 的 HG_U95Av2 表达 谱 蕊 片 (含有 12625 个 探 针 组 )， 共 测量 了 24 
个 样品 (“CLL10.CEL”、“CLL11.CEL”、“CLL12.CEL”“CLL13.CEL”“CLL14.CEL” 等 )， 
每 个 样品 来 自 一 个 癌症 病人 ， 所 有 病人 根据 健康 状态 分 为 两 组 稳定 期 〈Stable) 组 和 进展 
期 (Progressive) 也 称 为 恶化 期 组 ( 见 5.3.1)。 因 此 ， 最 后 的 结果 得 到 的 对 象 e。 是 一 个 12625 
行 、24 列 的 基因 表达 矩阵。 例 5-1 采用 的 实验 设计 方式 : 两 组 之 间 是 对 照 试验 (Control test), 
每 组 内 部 是 平行 试验 (Parallel test)。 对 照 试验 ， 简 单 来 说 就 是 为 了 阐明 某 种 单一 因素 的 效 
应 或 影响 ， 在 保持 其 他 因素 不 变 的 前 提 下 ， 测 试 一 定数 量 的 实验 组 样本 和 对 照 组 样本 ， 并 
对 结果 进行 比较 。 平 行 试验 ， 简 单 来 说 就 是 对 同样 的 一 组 样本 取 两 个 以 上 相同 的 样品 ， 以 
完全 一 致 的 条 件 进行 试验 ， 测 试 结果 的 稳定 性 。 

从 例 5-1 可 以 看 到 ， 用 Bioconductor 编程 ， 仅 用 不 超过 10 行 代码 即 完成 了 整个 芯片 预 
处 理 过 程 ， 甚 至 比 常 用 的 分 析 软 件 Affymetrix Expression Console Software 还 要 简单 。 而 且 
Bioconductor 提供 了 多 种 参数 供用 户 设 定 ， 可 以 完成 更 为 复杂 的 分 析 及 批量 处 理 功能 ， 是 
分 析 软 件 所 不 具备 的 。 


5.2 ”基因 芯片 基础 知识 


5.2.1 探 针 组 


一 张 基 因 芯 片 〈 以 Affymetrix 表达 谱 芯 片 为 例 ) 可 以 包含 上 百 万 的 探 针 〈 通 常 由 25 个 
碱 基 组 成 )， 它 们 被 整齐 有 序 地 印刷 在 芯片 上 。 一 组 探 针 或 称 探 针 组 (Probe set)， 来 自 于 一 
个 基因 ， 通 常 由 20 对 或 者 11 对 探 针 组 成 ， 每 一 对 探 针 都 由 匹配 探 针 (Perfect match, PM) 
和 错 配 探 针 (Mismatch，MM) 组 成 ， 称 为 探 针对 (Probe pair) (K| 5-1). MM 与 PM 的 
序列 只 有 正中 央 的 那个 碱 基 不 同 ， 其 余 的 都 一 致 。 但 是 ， 在 一 些 高 密度 芯片 中 ， 例 如 外 显 
子 芯 片 (Exon array)， 每 个 探 针 组 只 有 4 PM 探 针 ， 没 有 MM 探 针 。 

探 针 序 列 的 来 源 叫 做 参考 序列 〈 图 5-1)， 通 常 来 自 于 公开 的 核酸 数据 库 〈 例 如 NCBI 
GenBank 或 RefSeq)。 对 于 不 同 的 芯片 类 型 ， 探 针 组 在 参考 序列 中 的 分 布 不 同 〈 见 图 5-25: 
3 表达 谱 芯片 的 探 针 组 排 布 在 参考 序列 3' 末端 附近 的 一 至 两 个 外 显 子 上 ， 外 显 子 芯片 中 ， 
每 个 长 度 大 于 25 个 碱 基 的 外 显 子 都 有 针对 它 的 探 针 组 ; 铺 瓦 芯片 〈Tilling array) 中 ， 探 
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针 组 覆盖 了 几乎 所 有 的 外 显 子 和 内 含 子 。 


^e 3 e ^ 其 3€ 3x € ^e cw ae € 和 E 
/ Nb 


,+ . TGTGATGGTGGGAATTGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC. . . 
AATTGGGTCAGA ACTCCTATGTGGGTG — Perfect Match oligo 
AATTGGGTCAGAAKIGACTCCTATGTGGGTG Mismatch oligo 


(25-mer) 





PM 探 针 格 





MM 探 针 格 


图 5-1 Affymetrix 芯片 中 的 探 针 组 





5? 3? 
参考 序列 Intron 
3' 表达 谱 芯片 esi 
TLLELET TT 
外 显 子 芯片 NENNEN 本 有 Ess= ara 


IILE 114111 IIII IIIi 
铺 瓦 芯片 Inn Hn n dH HE HE EHE HE E HE E EH HE LH HE HE BE E E E E E GG E LG 


图 5-2 不 同类 型 芯片 中 的 探 针 分 布 


这 里 需要 强调 的 是 ， 芯 片 数据 领 域 提 到 的 基因 表达 矩阵 〈 见 例 5-1) 往往 是 以 探 针 组 而 
不 是 以 基因 为 单位 的 ， 即 每 行 都 对 应 一 个 控 针 组 的 表达 量 。 后 面 将 要 讲 到 的 差异 表达 分 析 
也 是 找到 显著 性 差异 表达 的 探 针 组 ， 然 后 通过 ID 映射 才 对 应 到 探 针 组 代表 的 基因 ， 探 针 组 
与 基因 的 关系 往往 是 多 个 探 针 组 对 应 一 个 基因 。 但 在 实际 应 用 中 ， 经 常 不 太 注 意 区 分 ， 探 
针 组 有 时 也 会 被 叫做 基因 。 


5.2.2 主要 的 拓片 文件 格式 
从 芯片 实验 结果 获取 数据 包括 两 个 步骤 : 第 一 步 由 扫描 设备 (如 Affymetrix Scanner 


3000) 对 芯片 进行 扫描 ， 得 到 荧光 信号 图 像 文 件 DAT 文件 ); 第 二 步 就 是 由 系统 自 带 的 图 
像 处 理 软件 (如 Affymetrix 公司 的 GeneChip operating software，GCOS)， 经 过 网 格 定位 
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(Griding)、 杂 交点 范围 确定 CSpot identifying) 和 背景 噪音 过 滤 (Noise filtering) 等 图 像 识 
别 过 程 ， 从 芯片 图 像 中 提取 数据 ， 得 到 CEL 文件 。 

Affymetrix 芯片 原始 数据 最 常用 格式 为 CEL 格式 ， 也 是 芯片 数据 预 处 理 和 分 析 的 出 发 
点 。 下 面 根据 一 个 具体 的 CEL 文件 来 介绍 其 主要 内 容 。 该 数据 来 自 肺 腺 癌 Lung 
adenocarcinoma) 数据 集 (NCBI GEO 数据 库 编号 为 GSE5900) 的 一 个 癌症 样品 (NCBI GEO 
数据 库 编 号 为 GSM254625)， 芯 片 型 号 是 Affymetrix HG-U133A。CEL 文件 的 主要 内 容 就 是 
每 个 “cell” 的 灰 度 信息 ,“cell” 是 整个 芯片 图 像 划 分 后 得 到 的 小 网 格 ， 每 个 小 网 格 中 的 图 
像 被 看 做 来 自 一 个 探 针 。 从 图 5-3A 中 可 以 看 到 ， 自 “CellHeader” 开 始 ， 每 行 数据 对 应 芯 
片上 的 一 个 “cell” 位 点 ， 包 含 5 列 信息 ， 依 次 为 X 坐标 、Y 坐标 、 灰 度 的 平均 值 、 灰 度 的 
标准 差 以 及 用 了 多 少 个 像素 来 求 这 个 平均 值 。 

A. B. 


ICEL) 
Version=3 #CEL 文 件 版 本 号 


i Sec Nare o. x rr Y TUBE Interrogation Position Probe Sequence Target S:randedness 
[HEADER] LIN TCICCI3GGGICATIGGTAGCACARA Antisense 
Cols=712 该 芯片 共有 712 列 Eu = En 3 GTAGCACAAACGCACATGACIGAGT Antisense 

4 该 芯片 共有 712 行 te 593 239 o CIGGCC-TGGGAGATCTGGGGGACC AntíSense 

TotalXm712 ”地 该 芯片 共有 712 列 200688 at 499 595 0 TIGCIGICCTATAIGIGATGCITIGA AntiSense 
TotalY=712 $E Edit 247 200688 at 409 65 0 AGAGAGSGCACCGIGGGGIGIICAG AntiSense 
Offseux-0 — # 此 参数 未 使 用 200688 at 348 283 o CCACTASCIGCCCAACGGATGAAIC AntiSense 
OffsecYeo — # 此 参数 未 使 用 200688 ac 372 343 0 GAATCAACGCCIT! AntiSense 
GridcornerUL=165 i25 ELANK iti CE (OE IER 200688 at 470 283 0 CCACIG2CIIGGGGACGGGIGAGGA AntiSense 
GridCornezUR-5288 146 §# 右 上 和 角 网 格 的 xY 坐 标 〔 单 位 是 像 系 值 ) 200688 at 615 577 o TIGAGGASITAGCCIGGAACATICCA Antisense 
GridCornerLR=5271 5286# 右 下 角 网 格 的 xy 坐标 〈 单 位 是 像素 值 7 200683 . 316 s 0 ATTCCASCGTGOGCATTATTOTOCT AntiSen: 
GridCornerLLe148 5265 +Æ TARIE C GrH AEGUR D. 200688 at 76 535 9 GGARTCCAGITTIGICGATCCAATT Antisense 
Axis-invertX=0 参数 未 使 用 
AxisInvertY*0 # 此 参数 未 使 用 
swepXY=0 此 参数 未 使 用 
DatHeade==[5..65486] #DAT 文 件 的 头 部 信息 
AlgorithmePercent. niii 算法 
AlgorithmParametersePercentil # 用 于 产生 该 cEL 文 件 的 算法 参数 
(INIENSITY] STE MER 
NumberCells-506944 # 表 示 一 共有 506944 个 
CellHeadez-X — Y MEAN — SIDV s 

o 0 252.0 70.7 25 


图 5-3 “CEL 和 Probe 文 件 部 分 内 容 


CEL 文件 只 提供 了 每 个 探 针 的 灰 度 信息 ， 还 需要 基因 芯片 探 针 排 布 的 信息 〈 即 哪个 探 
针 来 自 于 哪个 探 针 组 )， 才 可 以 得 到 芯片 上 每 个 探 针 组 对 应 的 表达 数据 〈 见 例 5-1)， 这 就 需 
要 CDF 文件 。 另 外 一 个 重要 的 文件 是 Probe 文件 ， 它 提供 了 探 针 的 序列 信息 。Affymetrix 
公司 为 每 种 型 号 的 芯片 都 提供 了 对 应 的 CDF 文件 和 Probe 文件 。CDF 文件 中 的 对 应 关系 
用 户 可 以 自行 更 改 , 例如 ,为 了 应 对 多 个 探 针 组 的 ID 对 应 到 同一 个 基因 ID 的 现象 有些 
研究 机 构 〈http:/maskernci.nih.gov/ev/) 就 把 对 应 到 同一 个 基因 的 多 个 探 针 组 合并 为 所 个 探 
针 组 ， 并 提供 修改 后 的 CDF 和 Probe 文件 。 图 5-3B 是 Affymetrix HG-U133A 芯片 的 ,Probe 
文件 的 部 分 内 容 ， 它 只 包括 了 一 个 探 针 组 (名 称 是 “200688_at”) 的 所 有 探 针 ， 共 11 条 序 
Jy, 文件 中 第 2 和 3 列 是 对 应 探 针 所 在 的 X 和 Y 坐标; 第 4 列 是 序列 的 第 13 个 碱 基 (中 
D) 位 置 对 齐 到 一 致 性 序列 的 相对 位 置 ; 第 5 列 是 对 应 探 针 的 序列 ; 最 后 是 样品 与 探 针 杂 
交 的 方向 。 

除了 DAT 文件 、CEL 文件 和 CDF 文件 ， 常 见 的 芯片 数据 文件 还 包括 EXP 文件 、 CHP 
文件 、TXT 文件 和 RPT 文件 。 这 些 文件 在 芯片 数据 处 理 中 的 位 置 以 及 相互 关系 见 图 5-4。 
5-4 中 ,“MAS5” 标 准 化 方法 请 参见 5.3.4，TXT 文件 特 指 包括 基因 表达 矩阵 〈 见 例 5-1) 
的 TXT 文件 ，CHP 文件 与 TXT 文件 内 容 基 本 相同 。 
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图 5-4 ”常见 芯片 数据 文件 格式 


5.3 基因 芯片 数据 预 处理 


基因 芯片 数据 预 处 理 的 目的 是 将 探 针 水 平 的 数据 (杂交 信号 ) 转换 成 基因 表达 数据 。 

主要 的 数据 结构 有 AffyBatch 类 和 ExpressionSet 类 ， 前 者 用 于 存储 探 针 水 平 的 数据 (相当 
于 CEL 文件 的 内 容 )， 而 后 者 用 于 存储 表达 水 平 的 数据 (相当 于 基因 表达 和 矩阵 的 内 容 )。 预 
处 理 通 过 质量 控制 ， 剔 除 不 合格 的 芯片 〈 数 据 )， 只 保留 合格 的 进入 下 一 步 处 理 。 然 后 通过 
标准 化 ， 将 所 有 芯片 数据 中 的 基因 表达 值 变换 到 一 个 可 以 比较 的 水 平 ， 用 于 后 续 分 析 。 为 
了 突出 主要 问题 而 便于 读者 理解 , 本 节 中 的 标准 化 算法 或 方法 举例 使 用 了 全 部 样品 (数据 )， 
对 质量 控制 中 不 合格 的 样品 没有 进行 剔除 。 另 外 ， 这 部 分 R 语言 程序 实现 的 功能 ， 读 者 可 
以 使 用 Affymetrix 公司 的 专用 软件 Expression Console" 实现 ， 并 对 比 结果 。 


D.3.1 数据 输入 


在 例 5-1 中 ， 芯 片 数据 的 输入 是 从 数据 包 中 得 到 的 ， 但 是 实际 应 用 中 ， 更 常见 的 情况 
是 从 CEL 文件 中 获得 数据 (这 部 分 内 容 详 见 例 5-180. CEL 文件 是 芯片 数据 分 析 的 出 发 点 ， 
因此 大 部 分 芯片 研究 都 会 提供 其 数据 对 应 的 CEL 文件 , 例 5-1 中 , 数据 包 CLL 中 得 到 的 芯 
片 数据 基本 上 等 同 于 CEL 文件 。 无 论 数据 包 还 是 文件 输入 ， 读 入 的 数据 会 存 入 一 个 
“AffyBatch” 类 型 的 对 象 中 ( 见 例 5-2)， 读 者 可 以 通过 执行 help(“AffyBatch”) 获 得 更 详细 
的 介绍 。 


例 5-2: 

+ 加 载 所 需 R 包 , 前 面 已 安装 。 

library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 
data (CLLbatch) ; 

# 查看 数据 类 型 ， 结 果 不 再 显示 。 

data.class (CLLbatch) ; 

# 读 入 所 有 样品 的 状态 信息 。 
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data(disease); 
# 查看 所 有 样品 的 状态 信息 。 
disease; 


# 查看 “AffyBatch” 的 详细 介绍 。 

help (AffyBatch) ; 

在 Biobase 软件 包 中 ，AffyBatch 类 是 从 一 个 更 基础 的 类 eSet 类 衍生 来 的 。eSet 类 是 
如 此 的 基础 ， 以 至 于 它 被 写成 了 一 个 虚 类 ， 从 而 衍生 出 了 许多 非常 重要 的 类 ， 包 括 
ExpressionSet 类 、SnpSet 类 以 及 AffyBatch 类 等 。eSet 是 Bioconductor 为 基因 表达 数据 
格式 所 定制 的 标准 ， 因 此 如 果 想 了 解 世 片 数 据 结构 必须 要 熟悉 eSet 及 其 衍生 类 。 这 里 仅 简 
要 介绍 一 下 AffyBatch 类 。 

。 头 文件 : 用 于 描述 实验 样本 、 平 台 等 相关 信息 ， 其 中 包括 phenoData、featureData、 
protocolData 以 及 annotation 等 几 个 类 。 从 图 5-5A 中 可 见 ， 数 据 “CLLbatch” 中 共有 24 
个 样品 ， 分 别 是 “CLL10.CEL”“CLL11.CEL” 等 。 


A. B. 
> phenoData {CLLbatch) > exprs matrixc-assay poaait CLLbatch) [[11] 
An object of class "AnnctatedDataFrame" » exprs matrix[1:5,1:5 
sampleNames: CLL10.CEL CLL11.CEL ... CLLS.CEL (24 CLL10.CEL CLL11. CEL CLL12. CEL CLL13 .CEL CLL14.CEL 
total) 1 183.0 113.0 119.0 130.0 133.0 
varLabels: sample 2 11524.8 6879.8 7891.3 8627.5 8205.3 
varMetadata: Vd S A 3 301.0 146.0 133.0 160.0 153.0 
> featureData (CLLbat 4 11317.0 6747.0 7916.0 8616.0 7865.0 
An object of class "AnnotatedDataFrame" none 5 115.0 ln 0 78.8 101.0 65.3 
> protocoiData(CLLbatck) > exprs(CLLbatch)[1:5,1:5] 
An object of class "AnnctatedDataFrame": none CLL10.CEL CLL11. CEL CLL12.CEL CLL13.CEL CLL14.CEL 


> annotation (CLLbatch) 1 183.0 113.0 119.0 130.0 133.0 
[1] "hgu95av2" 2 11524.8 6879.8 7891.3 8627.5 8205.3 
3 301.0 146.0 133.0 160.0 153.0 
4 11317.0 6747.0 7916.0 8616.0 7865.0 
5 115.0 82.0 78.8 101.0 65.3 


图 5-5 AffyBatchğ £544 


e assayData: 这 是 AffyBatch 类 必 不 可 少 的 ， 它 的 第 一 个 元 素 是 矩阵 类 型 ， 用 于 保存 基 
因 表 达 和 矩阵 。 该 矩阵 的 行 对 应 不 同 的 探 针 组 (Probe sets)， 用 一 个 无 重复 的 索引 值 表示 ; 列 
对 应 不 同 的 样品 。 当 使 用 exprs 方法 时 ， 调 取 的 就 是 这 个 基因 表达 和 矩阵 (图 5-5B). 

* experimentData: 一 个 MIAME 类 型 的 数据 ， 设 计 这 个 MIAME 类 的 目的 就 是 用 于 保 
存 MIAME 原则 (Minimum Information About a Microarray Experiment) 建议 的 注释 信息 。 
MIAME 原则 是 一 组 指导 方针 ， 它 建议 了 一 组 标准 来 记录 与 基因 芯片 实验 设计 相关 的 资料 ， 
比如 实验 室 名 或 发 表 的 文章 等 等 ， 这 里 不 再 具体 介绍 。 

从 例 5-2 可 以 看 到 , 执行 phenoData CCLLbatch) 并 没有 看 到 每 个 样品 对 应 的 表 型 信息 。 
因为 CLL 包 采 用 了 一 个 数据 框 类 型 的 变量 disease 来 保存 每 个 样品 的 表 型 ( 即 疾病 种 类 或 者 
状态 ) 信息 。 因 此 ， 通 过 查看 变量 disease 的 内 容 〈 未 显示 )， 可 以 看 到 有 9 个 病人 的 癌症 状 
态 处 于 稳定 期 (“stable”)，14 个 病人 处 于 恶化 期 C progress"). 以 及 一 个 病人 的 状态 未 知 
(“NA”)。 但 是 ， 将 表 型 信息 存 入 数据 结构 CLLbatch 中 是 更 为 规范 的 做 法 。 
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2.3.2 质量 控制 


质量 控制 对 于 后 续 的 分 析 至 关 重 要 ， 原 始 图 像 (DAT 文件 ) 级 别 的 质量 控制 一 般 用 各 
芯片 公司 自 带 的 软件 CU Affymetrix 公司 的 GCOS) 完成 。 本 节 中 ， 质 量 控制 主要 集中 在 
CEL 文件 级 别 的 处 理 ， 从 最 简单 的 直观 观察 ， 到 平均 值 方法 ， 再 到 比较 高 级 的 数据 拟 合 方 
法 。 这 三 个 层次 的 质量 控制 功能 分 别 由 image 函数 、simpleaffy 包 和 affyPLM 包 实 现 。 

直观 地 查看 一 下 芯片 上 所 有 位 点 的 灰 度 图 像 ， 例 5-3 要 和 例 5-2 一 起 运行 。 


例 5-3: 
# 查看 第 一 张 芯片 的 灰 度 图 像 。 
image(CLLbatch[, 1]); 


这 名 代码 表示 选取 CLLbatch 中 的 第 一 个 基因 芯片 〈 即 “CLL10.CEL”) 的 数据 ， 然 
后 调用 image 函数 根据 CEL 文件 中 的 灰 度 信息 画图 (图 5-6)。Affymetrix 芯片 在 印刷 时 会 
在 四 个 角 印 制 特 殊 的 花纹 ， 并 且 在 左上 角 印 制 芯片 的 名 称 ， 花 纹 与 芯片 名 称 可 以 帮助 我 们 
借助 这 个 图 像 分 辨 率 来 了 解 芯片 数据 是 否 可 靠 。 如 果 无 法 分 辩 四 角 花 纹 或 芯片 名 称 ， 很 可 
能 数据 有 问题 。 根 据 图 像 信息 ， 还 可 以 对 芯片 的 信和 号 强度 产生 一 个 总 体 认 识 : 如 果 图 像 特 
别 黑 ， 说 明 信 和 号 强度 低 ， 如 果 图 像 特别 亮 ， 说 明 信 和 号 强度 很 有 可 能 过 饱和 。 





图 5-6 ”根据 CEL 文 件 信息 构建 的 灰 度 图 像 
比 直观 评价 方法 更 好 的 简单 方法 是 基于 各 种 平均 值 的 方法 ， 这 类 方法 的 一 个 共同 特点 


就 是 假设 一 组 实验 中 的 每 个 世 片 数据 对 于 某 个 平均 值 指标 都 相差 不 大 。Affymetrix 公司 在 
指导 手册 中 详细 描述 了 这 些 标准 上 ， 它 们 有 : 
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。 尺 度 因 子 (Scaling factor): ”每 一 块 蕊 片上 所 有 探 针 的 平均 值 被 用 于 决定 尺度 因子 。 
我 们 假设 每 个 芯片 上 所 有 基因 定量 后 的 线性 坐标 表达 值 为 介 于 0 到 200 之 间 的 数字 ， 平 均 
值 为 100。 如 果 有 两 块 芯片 需要 比较 ， 第 一 块 芯 片 的 平均 值 为 S0， 第 二 块 芯片 的 平均 值 为 
200。 那 么 它们 的 尺度 因子 就 分 别 是 : 2 (50/100) 和 0.5 (200/100). KE Affymetrix 公司 
的 标准 ， 用 于 比较 的 芯片 之 间 的 尺度 因子 的 比例 必须 小 于 3， 在 这 个 假设 下 ，2/0.5=4， 大 于 
3 了 ， 因 此 这 两 块 芯片 不 能 用 于 比较 ， 其 中 至 少 有 一 块 出 了 问题 。 

* 检测 值 (Detection call) MRH (Percent present): 一 组 探 针 能 否 被 检测 到 ， 用 检 
WHA (Present, EKP) Æ (Absent, HER AO 和 不 确定 (Marginal present， 简 称 M) 


PM—MM 

PM-4-MM 

区 分 度 (Discrimination score)， 然 后 减 去 一 个 用 户 预定 义 Tau 值 后 做 Wilcoxon 秩 和 检验 
CWilcoxon's signed rank)， 再 求 得 一 个 P 值 (P-value)。 根 据 这 个 P 值 落 入 的 值 域 ， 来 确定 
检测 值 是 P、A 还 是 M (图 5-7)。 图 5-7 中 ， 检 测 范 围 的 上 下 边界 Coo 及 mw) 选用 了 默认 
值 0.04 和 0.06。 检 出 率 ， 是 用 所 有 检测 值 为 P 的 探 针 组 数量 除 以 芯片 所 有 探 针 组 数量 得 
到 的 百分比 。 如 果 检 出 率 很 低 ， 表 示 大 部 分 的 基因 都 未 被 检测 到 ， 很 难说 明 是 该 芯片 实验 
有 问题 ， 还 是 这 个 样品 的 大 多 数 基因 本 身 就 很 难 检测 到 ， 原 因 或 是 表达 量 极 低 或 是 其 他 。 

因此 ， 需 要 看 多 个 样品 之 间 的 相对 差别 ， 如 果 有 的 样品 的 检 出 率 与 其 他 的 有 比较 大 的 差别 ， 
那 很 可 能 该 样品 出 现 了 问题 。 


来 表示 。 那 么 每 组 探 针 的 检测 值 如 何 确定 呢 ? 首先 使 用 公式 R= 求 得 每 个 探 针 的 





Absent 





0.04 0. 
p-value 


Bj5-7 ”根据 P 值 确定 检测 值 


。 平 均 背 景 噪声 (Average background): 对 于 每 一 块 芯片 ， 根 据 所 有 的 MM 值 作出 统 
计 ， 可 以 得 到 背景 噪音 的 平均 值 、 最 小 值 和 最 大 值 。 往 往 较 高 的 平均 背 噪 都 伴随 着 较 低 的 
检 出 率 ， 因 此 这 两 个 指标 可 以 结合 使 用 。 

。 标 准 内 参 〈(Internal control genes): mRNA 是 按 5' mE 3' 端的 顺序 来 降解 的 ， 
芯片 探 针 组 也 是 根据 这 个 顺序 来 设计 的 ， 因 此 探 针 组 的 测量 结果 可 以 体现 这 一 趋势 。 因 
为 大 部 分 的 细胞 都 有 B-actin 和 GAPDH 基因 , 所 以 Affymetrix 在 大 部 分 的 芯片 里 都 将 
它们 设置 为 一 组 观察 RNA 降解 程度 的 内 参 基 因 。 根 据 这 两 个 基因 设计 的 探 针 组 很 好 地 
涵盖 了 它们 3’ 端 至 5 端的 每 一 个 区 段 。 通 过 比较 它们 3’ 端 相对 于 中 间或 者 5 端的 信 
号 强度 ， 可 以 很 好 地 指示 出 实验 质量 。Affymetrix 建议 这 个 比值 对 于 B-actin 不 大 于 3， 
对 于 GAPDH 不 大 于 1.25， 即 可 说 明 这 个 芯片 的 质量 可 以 接受 。 如 果 这 个 比值 很 高 ， 表 
明 不 完整 的 B-actin 或 者 GAPDH 的 存在 ， 可 能 源 于 体外 转录 不 好 或 者 降解 非常 严重 。 
如 果 使 用 的 是 Affymetrix 的 小 样本 实验 流程 (Small sample protocol) 而 不 是 常用 的 标准 
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流程 (Standard protocol)， 建 议 使 用 3’ 端 相对 于 中 间 的 比值 。 原 因 是 小 样本 流程 有 更 多 
扩 增 次 数 ， 有 可 能 产生 更 多 较 短 的 转录 序列 ， 不 可 避免 地 带 来 3 端的 偏 倚 。 为 了 验证 杂 
交 的 质量 ，Affymetrix ZH] RJ T P3S2S HK DR £F 2H. (Spike-in probesets): 一 类 是 
poly-A 内 参 ， 包 括 lys. phe. thr 和 dap， 它 们 从 实验 的 第 一 步 开 始 加 入 ; 另 一 类 是 杂 
交 内 参 ， 包 括 BioB. BioC. BioD 和 CreX， 它 们 自 样品 与 芯片 混合 前 最 后 一 步 加 入 。 
ploy-A 内 参 用 于 检测 标记 过 程 是 否 有 问题 , 杂交 内 参 主要 用 于 指示 杂交 效率 。 poly-A 内 
参 (ys, phe, thr 和 dap) 的 稀释 浓度 分 别 为 : 1:100 000、 1:50 000、 1:25 000 和 1:7 500, 
因此 ， 期 望 检测 到 的 信号 强度 为 lys < phe < thr < dap: 杂交 内 参 也 按照 同 理 稀 释 ， 期 望 
检测 到 的 信号 强度 为 BioB < BioC < BioD < CreX。 如 果 BioB 不 能 被 检测 为 P， 说明 该 
芯片 的 杂交 没有 达标 ， 这 很 有 可 能 是 芯片 本 身 的 问题 。 

根据 上 述 的 这 些 标准 ， 可 以 使 用 Bioconductor 的 simpleaffy 包 对 Affymetrix 芯片 数 
据 进 行 质量 评估 〈( 见 例 5-4)， 最 后 得 到 质量 控制 总 览 图 (图 5-8)。 


例 5-4: 

# 安装 并 加 载 所 需 民 包 。 
source(http://Bioconductor.org/biocLite.R"); 
biocLite("simpleaffy"); 
library(simpleaffy); 

library (CLL); 

data (CLLbatch) ; 

# 获取 质量 分 析 报 告 。 
Data.qc <- qc(CLLbatch); 
# 图 型 化 显示 报告 。 
plot(Data.qc); 


图 5-8 是 CLL 数据 集中 全 部 24 个 芯片 数据 的 质量 控制 总 览 图 。 图 5-78 中 从 左 至 右 ， 
第 1 列 是 所 有 样品 的 名 称 ; 第 2 列 是 两 个 数字 〈 对 应 每 个 样品 )， 上 面 的 是 以 百分比 形 
式 出 现 的 检 出 率 ， 下 面 的 数字 表明 平均 背景 噪音 ; 第 3 5] (“QC Stats") 最 下 面 的 横 轴 
是 尺度 因子 等 指标 对 应 的 坐标 ， 取 值 范 围 从 -3 到 3， 用 浅 蓝 色 虚线 作为 边界 。 第 3 列 用 
到 了 三 项 指标 : 尺度 因子 、GAPDH 3/5 KIAM actin 3”/5” 比 值 ( 记 做 gapdh3/gapdh5 
和 actin3/actin5 )， 分 别 用 实心 圆 、 空 心 圆 和 三 角 标 志 表 示 出 来 。 另 外 ， 如 果 第 三 列 中 
出 现 红色 的 “bioB ”字样 ， 说 明 该 样品 中 未 能 检测 到 BioB 。 

简单 地 讲 ， 所 有 指标 出 现 蓝 色 表示 正常 ， 红 色 表 示 可 能 存在 质量 问题 。 但 是 根据 实 
际 情况 不 同 ， 还 要 进一步 分 析 。 一 般 来 讲 ， 如 果 有 一 个 芯片 各 项 指标 都 不 太 正 常 ， 尤 其 
是 BioB -无 法 检测 到 ， 建 议 判 定 为 该 芯片 实验 失败 。 如 图 5-8 中 的 样品 “CLL15.CEL”， 
这 个 数据 的 检 出 率 (38.89%) 明显 低 于 其 他 样品 ，actin3/actin5 远大 于 3， 而 且 没 有 检测 
到 BioB， 因 此 可 以 判定 此 数据 无 效 。 如 果 多 个 芯片 都 出 现 了 相同 的 问题 ， 原 因 则 可 能 是 
多 方面 的 : 如 左 侧 第 2 列 24 个 芯片 的 检 出 率 和 背景 噪声 都 很 高 ， 原 因 是 阔 值 设 定 过 高 ， 
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如 果 降 低 阔 值 ， 大 部 分 就 会 变 蓝 ， 再 如 ， 全 部 芯片 都 不 能 检测 到 BioB ， 有 可 能 是 嵌入 探 
针 所 针对 的 DNA 溶液 加 入 比例 不 对 。 
© Gapdhilgapdns QC Stats 
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图 5-8 质量 控制 总 览 图 ( 见 彩 图 ) 


基于 平均 值 假 设 的 评价 指标 都 有 一 个 默认 的 假设 ， 那 就 是 对 于 每 一 块 芯片 ， 质 量 是 
均匀 的 ， 不 会 随 着 位 置 不 同 发 生 较 大 的 变化 。 但 事实 上 真有 这 么 简单 么 ? 如 果 关 注 芯片 
的 每 个 小 格 〈Grid)， 就 会 发 现 格 与 格 之 间 的 质量 也 是 有 差异 的 ， 这 可 能 由 于 芯片 印刷 的 
问题 ， 也 可 能 是 杂交 过 程 出 现 的 问题 ， 这 里 不 再 详 述 。 那 么 如 何 才 能 得 到 比较 可 靠 的 质 
量 评估 呢 ? 这 需要 设计 多 种 能 反映 已 片 数据 全 貌 的 指标 综合 分 析 从 而 得 出 最 终 的 结论 。 
这 些 指标 要 在 对 原始 数据 拟 合 (回归 ) 的 基础 上 计算 得 到 ,然后 以 图 的 形式 显示 , 包括 : 
BUE (Weights) &5X25 (Residuals) 图 、 相 对 对 数 表达 (Relative log expression, RLE) 
箱 线 图 、 相 对 标准 差 (Normalized unscaled standard errors, NUSE) 箱 线 图 、RNA 降解 
曲线 、 聚 类 分 析 《〈Cluster analysis) 图 、 主 成 分 分 析 (Principal component analysis, PCA) 
图 、 信 号 强度 分 布 图 ( 见 5.3.3) 及 MA 图 ( 见 5.3.3) 等 。 以 上 功能 由 Bioconductor 中 
的 affyPLM 包 实 现 。 


例 5-5: 

# 安装 并 加 载 所 需 及 包 。 
source('http://Bioconductor.org/biocLite.R"); 
biocLite("affyPLM ") ; 

library (affyPLM); 


M 118 及 语言 与 Bioconductor 生物 信息 学 应 用 


library (CLL); 

# 读 入 数据 《〈《CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch); 

# 对 数据 集 做 回归 计算 ， 结 果 是 一 个 “PLMset” 类 型 的 对 象 。 
Pset«- fitPLM(CLLbatch); 

# 画 第 一 个 芯片 数据 的 原始 图 。 

image(CLLbatch[, 1]); 

# 根据 计算 结果 ， 画 权重 图 。 

image(Pset, type = "weights", which = 1, main = "Weights"); 
# 根据 计算 结果 ， 画 残 差 图 。 

image(Pset, type = "resids", which = 1, main = "Residuals"); 
# 根据 计算 结果 ， 画 残 差 符 号 图 。 


image(Pset, type = "sign.resids", which = 1, main = "Residuals.sign"); 


首先 介绍 权重 残 差 图 。affyPLM 软件 包 在 探 针 水 平 〈Probe-level-model) 拟 合 时 所 使 用 
的 回归 方法 是 最 小 二 乘法 。 普 通 最 小 二 乘法 假设 误差 项 的 方差 是 不 变 的 ， 然 而 ， 在 芯片 的 
应 用 计算 过 程 中 ， 这 一 假设 并 不 成 立 ， 所 以 就 引入 了 加 权 最 小 二 乘法 来 进行 回归 。 这 个 加 
权 的 权重 就 体现 着 方差 的 变化 。 因 为 所 有 的 探 针 都 是 随机 分 布 在 基因 芯片 上 的 ， 因 此 ， 理 
论 上 ， 权 重 和 残 差 (估计 值 和 观测 值 之 间 的 差异 ) 的 分 布 也 是 随机 的 。 执 行 例 5-5 代码 ， 可 
以 得 到 CLL 数据 集 的 权重 和 残 差 图 (图 5-9 )。 


CLLIO.CEL Weights 





Residuals Residuals.sign 








图 5-9 ”CLL 数 据 集 的 权重 残 差 图 ( 见 彩 图 ) 


一 般 情况 下 ， 在 权重 图 中 ， 绿 色 代表 较 低 的 权重 (接近 0)， 白 色 、 灰 色 代 表 较 高 的 权 
E ŒE 1); 在 残 差 图 中 ， 红 色 代 表 正 的 高 残 差 ， 白 色 代 表 低 残 差 ， 蓝 色 代 表 负 残 差 ， 在 
残 差 符 号 图 中 ， 红 色 代表 正 的 残 差 ， 蓝 色 代 表 负 的 残 差 。 如 果 权 重 和 残 差 都 是 随机 分 布 的 ， 
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应 该 看 到 绿色 均匀 分 布 的 权重 图 和 红 蓝 均匀 分 布 的 残 差 图 。 图 5-9 中 ， 左 上 为 原始 图 像 ， 
右上 为 权重 图 ， 左 下 为 残 差 图 ， 右 下 为 残 差 符号 图 。 从 图 5-9 中 可 以 看 到 ， 虽 然 在 一 定 程 
度 上 芯片 的 右 中 部 权重 及 残 差分 布 并 不 均匀 ， 但 是 总 体 上 看 来 还 是 可 以 接受 的 。 另 外 ， 还 
可 以 看 到 ， 图 中 左上 部 出 现 了 一 些 白色 的 条 块 ， 这 是 正常 的 现象 ， 因 为 有 些 时 候 ， 探 针 会 
按照 GC 比率 (GC ratio) 排 布 从 而 导致 白斑 的 出 现 。 那 什么 样 的 权重 和 残 差 图 是 不 可 接受 
的 呢 ? 如 图 5-10 所 示 。 


A H P 





图 5-10 不 可 接受 的 权重 残 差 图 示例 ( 见 彩 图 ) 


在 对 比 实验 中 ， 即 使 是 相互 比较 的 对 照 组 与 实验 组 之 间 ， 大 部 分 基因 的 表达 量 还 是 应 
该 保持 一 致 的 , 平行 实验 之 间 一 致 性 更 强 。 相 对 对 数 表 达 (RLE) 箱 线 图 可 以 反映 上 述 趋势 ， 
它 定义 为 一 个 探 针 组 在 某 个 样品 的 表达 值 除 以 该 探 针 组 在 所 有 样品 中 表达 值 的 中 位 数 后 取 
对 数 。 一 个 样品 的 所 有 探 针 组 的 RLE 的 分 布 可 以 用 一 个 统计 学 中 常用 的 箱 型 图 形 表示 。 如 
果 使 用 RLE 箱 线 图 来 控制 CLL 数据 集 的 实验 质量 , 每 个 样品 的 中 心 应 该 非常 接近 纵 坐 标 0 
的 位 置 (图 5-11)。 如 果 个 别 样品 的 表现 与 其 他 大 多 数 明 显 不 同 ， 那 说 明 可 能 这 个 样品 有 问 
题 。 运 行 例 5-6 代码 ， 可 以 得 到 图 5-11 结果 。 


例 5-6: 

# 安装 并 加 载 所 需 R 包 ，RColorBrewer 包 包 含 多 种 预 设 的 颜色 集 。 
source(http://Bioconductor.org/biocLite.R"); 
biocLite("RColorBrewer"); 


@ 120 R 语言 与 Bioconductor 生物 信息 学 应 用 


library(affyPLM); 

library(RColorBrewer) ; 

library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch); 

# 对 数据 集 做 回归 计算 ， 结 果 是 一 个 “PLMset” 类 型 的 对 象 。 
Pset «-fitPLM(CLL batch); 

# 载 入 一 组 颜色 。 

colors <- brewer.pal(12, "Set3"); 

# 绘制 RLE 箱 线 图 。 

Mbox(Pset, ylim = c(-1, 1), col = colors, main = "RLE", las = 3) ; 
# 绘制 NUSE 箱 线 图 。 

boxplot(Pset, ylim = c(0.95, 1.22), col = colors, main = "NUSE", las = 3) ; 
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图 5-11 CLL 数据 集 的 RLE 箱 线 图 


NUSE 是 一 种 比 RLE 更 为 敏感 的 质量 检测 手段 。 如 果 根 据 RLE 箱 线 图 对 某 个 芯片 
的 质量 产生 怀疑 ， 那 么 再 结合 NUSE 图 ， 这 种 怀疑 就 可 以 确定 下 来 。NUSE 定义 为 一 
个 探 针 组 在 某 个 样品 的 PM 值 的 标准 差 除 以 该 探 针 组 在 各 样品 中 PM 值 标准 差 的 中 位 数 。 
如 果 所 有 芯片 的 质量 都 是 非常 可 靠 的 话 ， 那 么 它们 的 标准 差 会 十 分 接近 ， 因 此 它们 的 
NUSE 值 就 会 都 在 1 附近 。 然 而 , 如 果 有 某 些 芯片 质量 有 问题 的 话 , 就 会 严重 地 偏离 1， 
进而 导致 其 他 芯片 的 NUSE 值 偏向 相反 的 方 和 向。 当然， 还 有 一 种 非常 极端 的 情况 ， 那 
就 是 大 部 分 芯片 都 有 质量 问题 ， 但 是 它们 的 标准 差 却 比 较 接 近 ， 反 而 会 显得 没有 质量 问 
题 的 芯片 的 NUSE 值 明 显 偏离 1， 所 以 必须 结合 RLE 及 NUSE 两 个 图 才能 作出 更 可 靠 
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的 判断 。 例 如 ， 结 合 图 5-11 和 5-12， 可 以 看 出 CLL1 及 CLLIO 的 质量 明显 有 别 于 其 
他 样品 ， 所 以 需要 舍弃 。 
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图 5-12” CLL 数据 集 的 NUSE 箱 线 图 


RNA 降解 是 影响 芯片 数据 质量 的 一 个 很 重要 因素 。 因 为 RNA 是 从 5^ 端 开始 降解 的 ， 
所 以 理论 上 探 针 5” 端的 荧光 强度 应 该 低 于 3” 端的 荧光 强度 。 RNA 降解 曲线 的 斜率 表示 了 
这 种 变化 趋势 ， 斜 率 越 小 ， 说 明 降 解 较 少 ， 反 之 ， 则 降解 越 多 。 但 是 ， 如 果 斜 率 太 小 ， 甚 
至 接近 0， 就 要 特别 注意 ， 这 不 仅 不 代表 基本 没 降解 ， 而 且 可 能 全 部 被 降解 。 因 为 ， 在 实际 
实验 中 ， 基 本 没 降解 是 不 可 能 的 ， 很 可 能 是 因为 RNA 降解 太 严重 ， 才 导致 计算 值 接近 0。 
从 图 5-13 中 ， 可 以 看 到 CLLI3 对 应 的 曲线 几乎 平行 于 横 轴 ， 因 此 判断 很 可 能 降解 严重 ， 
需要 作为 坏 数据 去 除 。 

最 后 ， 经 过 上 面 的 综合 分 析 ， 需 要 去 除 三 个 样品 数据 : CLLI. CLLIO 和 CLL13。 


例 5-7: 

# 安装 并 加 载 所 需 R 包 。 
source(http://Bioconductor.org/biocLite.R"); 
biocLite("affy") ; 

library(affy); 

library(RColorBrewer); 

library (CLL); 

# 读 入 数据 〈CLL 包 中 附带 的 示例 数据 集 )。 
data (CLLbatch); 

# 获取 降解 数据 。 

data.deg <- AffyRNAdeg(CLLbatch); 

# 载 入 一 组 颜色 。 


colors «- brewer.pal(12, "Set3"); 
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# 绘制 RNA 降解 图 。 

plotAffyRN Adeg(data.deg, col = colors) ; 

8 在 左上 部 位 加 注 图 注 。 

legend("topleft", rownames(pData(CLLbatch)), col = colors, lwd = 1, inset = 0.05, cex = 
0.5); 

# 从 CLL 数据 集中 去 除 样品 CLL1、CLL10 和 CLL13. 

CLLbatch«-CLLbatch[,-match(c(" CLL10.CEL","CLL1.CEL","CLL13.CEL"),sampleNames 
(CLLbatch))]; 
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图 5-13 ”CLL 数 据 集 的 RNA 降解 曲线 


前 面 讲 到 的 几 种 质量 控制 方法 都 是 基于 “平均 值 ”思想 的 。 其 实 ， 还 可 以 从 另外 一 个 
角度 来 对 芯片 质量 进行 检验 。 这 就 是 利用 芯片 之 间 的 相互 关系 ， 例 如 在 对 照 实验 中 ， 理 论 
上 组 内 同 种 类 型 的 芯片 数据 应 该 聚拢 在 一 起 ， 两 个 组 之 间 应 该 明显 地 分 离 。 这 个 思想 是 非 
常 合 理 的 ， 需 要 做 的 就 是 找到 一 种 指标 来 刻画 芯片 数据 之 间 的 相似 度 或 距离 ，Pearson 线性 
相关 系数 就 是 最 常用 的 这 类 指标 。 基 于 “相互 关系 ”的 方法 ， 其 核心 是 相关 系数 矩阵 ， 它 
包括 了 全 部 关系 信息 。 计 算 相关 系数 矩阵 ， 可 以 使 用 预 处 理 之 前 的 芯片 数据 ， 也 可 以 使 用 
标准 化 之 后 的 数据 〈 见 例 5-8)。 例 5-8 中 ， 通 过 查看 相关 系数 矩阵 “pearson_cor”， 可 以 看 
到 组 内 《稳定 组 和 恶化 组 ) 和 组 间 相 似 度 差异 不 大 。 在 实际 应 用 中 ， 往 往 不 是 直接 查看 相 
关系 数 矩 阵 ， 而 是 根据 由 相关 系数 矩阵 导出 的 距离 矩阵 ， 进 行 聚 类 分 析 或 主 成 分 分 析 以 对 
样品 归 类 并 图 形 化 显示 《〈 见 例 5-8). 
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例 5-8: 

# 安装 并 加 载 所 需 及 包 。 

source(http://Bioconductor.org/biocLite.R"); 

biocLite("gcrma"); 

biocLite(" graph"); 

biocLite("affycoretools"); 

library (CLL); 

library (gcrma); 

library (graph); 

library(affycoretools); 

# 读 入 数据 〈CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch); 

data (disease); 

# 使 用 gcrma 算法 来 预 处 理 数据 。 

CLLgcrma <- gcrma(CLLbatch) ; 

# 提取 基因 表达 矩阵 。 

eset <- exprs(CLLgcrma) ; 

# 计算 样品 两 两 之 间 的 Pearson 相关 系数 。 

pearson cor <- cor(eset) ; 

* 得 到 Pearson FERT] P — fg EE. 

dist.lower <- as.dist(1 - pearson cor) ; 

# 聚 类 分 析 。 

hc «- hclust(dist.lower, "ave") ; 

# 根据 聚 类 结果 画图 。 

plot(hc) ; 

# PCA 分 析 。 

samplenames <- sub(pattern="\\.CEL", replacement-"",colnames(eset)) 

groups <- factor(disease[,2]) 

plotPCA(eset,addtext-samplenames,groups-groups,groupnames-levels(groups)) 

从 聚 类 分 析 的 整体 结果 来 看 〈 图 5-14)， 稳 定 组 (图 5-14 PRERE) 和 恶化 组 根本 
就 不 能 很 好 分 开 。 这 样 还 不 能 简单 判定 实验 完全 失败 ， 所 有 样品 数据 都 不 能 使 用 。 理 论 上 
讲 ， 如 果 总 体 上 两 组 数据 是 分 开 的 ， 那 么 说 明 我 们 关心 的 导致 癌症 从 稳定 到 恶化 的 因素 起 
到 主导 作用 ; 如 果 不 是 ， 很 可 能 其 他 因素 起 到 主导 因素 ， 要 具体 问题 具体 分 析 。CLL 数据 
的 实验 样本 来 自 不 同 的 个 体 ， 而 不 是 细胞 ， 很 可 能 个 体 差 异 起 到 了 主导 作用 ， 因 此 导致 聚 
类 被 整体 打 乱 。 所 以 只 有 当 聚 类 图 中 有 明显 的 类 别 差 异 时 ， 才 适合 考虑 去 除 个 别 不 归 类 的 
样品 ， 如 果 整 体 分 类 被 打 乱 ， 则 不 能 简单 判定 所 有 样品 都 出 了 问题 。 芯 片 分 析 往 往 采 用 两 
个 主 成 分 来 构建 分 类 图 ， 从 图 5-15 也 可 以 看 出 稳定 组 (矩形 〉 和 恶化 组 ( 萎 形 ) 根本 就 不 
能 很 好 分 开 。 使 用 主 成 分 分 析 时 ， 还 必须 考虑 前 2 个 主 成 分 是 否 具有 代表 性 ， 这 要 看 前 2 
个 主 成 分 的 累计 贡献 率 , 如果 低 于 60% ， 可 以 考虑 采用 另外 一 种 类 似 的 方法 来 构建 分 类 图 ， 
即 多 维 尺 度 分 析 (Metric multi-dimensional scaling method) '!. 
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图 5-15 ”gcRMA 算 法 处 理 过 的 所 有 样品 的 PCA 图 
5.3.3 背景 校正 、 标 准 化 和 汇总 


芯片 数据 通过 质量 控制 ,剔除 不 合格 的 样品 ， 留 下 的 样品 数据 往往 要 通过 三 步 处 理 CHÍ 
景 校 正 、 标 准 化 和 汇总 ) 才能 得 到 下 一 步 分 析 所 需要 的 基因 表达 和 矩阵 。 

首先 ， 讲 一 下 背景 校正 。 前 面 提 到 的 芯片 中 MM 探 针 的 作用 是 检测 非特 异 杂交 信号 。 
理论 上 ， MM 只 有 非特 异性 杂交 ， 而 不 会 有 特异 性 杂交 ，MM 的 信号 值 永远 小 于 其 对 应 的 
PM 信号 值 ， 那么 可 以 用 简单 的 数学 方法 处 理 一 下 , 做 一 个 PM-MM 或 PM/MM 即 可 去 除 背 
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景 噪 声 的 影响 。 但 实际 中 ， 经 常 发 现 大 量 的 MM 信号 值 比 PM 信和 号 值 还 要 高 。 因 此 ， 需 要 
应 用 更 为 复杂 的 统计 模型 来 去 除 背 景 噪声 , 这 个 过 程 叫 做 背景 校正 (Background correction) o 

其 次 ， 介 绍 一 下 标准 化 。 标 准 化 的 目的 是 使 各 次 /组 测量 或 各 种 实验 条 件 下 的 测量 可 以 
相互 比较 ， 消 除 测量 间 的 非 实验 差异 ， 非 实验 差异 可 能 来 源 于 样品 制备 、 杂 交 过 程 或 杂交 
信和 号 处 理 等 。 芯 片 数据 标准 化 ， 根 据 其 基本 假设 总 体 上 分 为 两 种 :“bulk normalization” 和 
“control-based normalization”。 前 者 假定 仅 有 一 小 部 分 基因 表达 值 在 不 同 条 件 下 有 差异 ， 而 
绝 大 部 分 基因 表达 值 不 变 ， 因 此 使 用 所 有 的 基因 表达 值 作为 参考 进行 标准 化 ， 而 后 者 使 用 
表达 值 被 认为 是 恒定 不 变 的 参考 基因 (通常 为 芯片 制造 商 提供 的 外 源 参考 基因 中 ) 作为 标准 
进行 标准 化 。 在 实际 应 用 中 ， 芯 片 数据 标准 化 只 采用 第 一 种 方法 ， 但 最 近 Cell 的 一 篇 文章 
也 对 这 种 方法 提出 了 质疑 四。 

最 后 ， 使 用 一 定 的 统计 方法 将 前 面 得 到 的 荧光 强度 值 从 探 针 (Probe) 水 平 汇总 到 探 针 
组 〈Probeset) 水 平 ， 这 个 过 程 被 称 为 汇总 (Summarization)。 

上 述 三 步 处 理 过 程 可 由 一 个 函数 实现 ， 它 就 是 affy 软件 包 中 的 expresso 函数 〈 见 例 
5-9)， 通 过 控制 这 个 函数 的 参数 ， 就 可 以 分 别 指定 三 步 处 理 具 体 应 该 采用 的 方法 。 


例 5-9: 

# 加 载 所 需 民 包 

library(affy); 

library (CLL); 

data (CLLbatch) ; 

eset.mas«-expresso(CLLbatch,bgcorrect.method-" mas" ,normalize.method-" constant" ,pmcorrect. 
method-" mas", summary.method-" mas"); 

从 例 5-9 中 ， 可 以 看 出 expresso 函数 的 调用 非常 简单 ， 只 不 过 参数 过 于 复杂 ， 用 户 可 
以 通过 help(expresso) 命 令 获得 它 的 全 部 参数 说 明 ( 表 $-1)， 也 可 以 通过 下 面 命令 查看 可 选 
的 参数 : 


bgcorrect.methods(); 
normalize.methods(CLLbatch); 
pmcorrect.methods(); 


express.summary.stat.methods(); 


表 5-1 expresso 函数 的 参数 


afbatch 输入 数据 必须 是 “AffyBatch” 类 型 的 对 和 象 
bgcorrect.method 背景 校正 的 方法 . 

bgcorrect.param 指定 的 背景 校正 方法 所 需要 的 参数 
normalize.method 标准 化 方法 

normalize.param 指定 的 标准 化 方法 所 需要 的 参数 
pmcorrect.method PM 调整 方法 

pmcorrect.param 指定 的 PM 调整 方法 所 需要 的 参数 
summary.method 汇总 方法 


su param 指定 的 汇总 方法 所 需要 的 参数 
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从 运行 结果 中 可 以 看 到 背景 校正 的 方法 有 三 种 :“bg.correct”、“mas” 和 “rma” 标准 
化 的 方法 有 八 种 :“constant”、“contrasts”、“invariantset”、“ ll “methods”, “qspline”、 
“quantiles” 和 “quantiles.robust” PM 校正 的 方法 有 四 种 : s". “methods”, “pmonly” 


和 “subtractmm”; 汇总 的 方法 有 五 种 :“avgdiff”、 eni ". “mas”, "*medianpolish" fil 
“playerout” 在 汇总 的 方法 中 ,“liwong” 是 dChip 一 体 化 算法 中 使 用 的 标准 化 方法 ( 表 5-2), 
但 是 由 于 dChip 并 不 开源 ， 所 以 Bioconductor 无 法 完全 的 复制 “liwong” 原 始 的 程序 代码 ， 
只 能 根据 文献 重 写 了 这 个 方法 。 

八 种 标准 化 方法 ， 又 可 以 分 为 芯片 间 标 准 化 方法 和 芯片 内 标准 化 方法 。 芯 片 间 标准 化 
方法 针对 单 通道 ( 见 2.3.1) 芯片 数据 ， 常 用 的 有 三 种 : 线性 缩放 constat”) PER 
(“invariantset”) 和 分 位 数 方法 〈“quantiles”)。 芯 片 间 标准 化 方法 的 核心 思想 就 是 确定 一 个 
参考 芯片 〈 也 可 以 是 假想 的 )， 假 定 芯 片 之 间 的 某 种 不 变量 ， 对 其 他 芯片 数据 进行 整体 的 拉 
伸 或 者 压缩 变换 。 最 简单 的 情况 是 ， 假 定 每 一 张 芯 片上 基因 表达 的 均值 应 该 是 不 变 的 〈 即 
线性 缩放 方法 ) 其 思路 是 依据 每 张 芯片 的 总 体 信 息 进 行 变 换 ， 这 种 假设 过 于 粗糙 ， 后 来 便 
产生 了 基于 看 家 基因 的 标准 化 方法 ， 即 以 这 些 特殊 基因 作为 参考 对 芯片 间 的 表达 值 进行 调 
整 ， 进 一 步 的 研究 又 发 现 ， 有 时 不 易 得 到 看 家 基因 ， 而 且 有 些 看 家 基因 的 表达 在 各 个 世 
中 也 不 是 恒定 不 变 的 ， 因 此 又 发 展 了 以 那些 在 多 个 忌 片 内 排序 比较 固定 的 基因 为 参考 进行 
变换 的 方法 。 线 性 缩放 方法 ， 以 其 他 芯片 和 参考 芯片 〈 默 认为 第 一 个 ) 所 有 基因 表达 值 均 
值 的 比值 为 因子 ， 对 其 他 芯片 的 表达 值 做 等 比例 缩放 〈 见 例 5-10)。 这 个 方法 非常 简单 ， 是 
MASS 预 处 理 算法 〈 见 5.3.4) 默认 使 用 的 标准 化 方法 。 例 5-10 中 的 缩放 采用 了 第 一 个 芯片 
(默认 ) 作为 参考 ， 而 MASS 预 处 理 算法 不 指定 任何 芯片 ， 而 是 设 定 了 一 个 假想 的 芯片 均值 
(默认 为 500〉 作 为 参考 ， 这 样 每 个 芯片 可 以 单独 计算 ， 而 不 必 依 赖 参考 芯片 ， 有 新 的 数据 
加 入 时 ， 可 以 不 必 重 新 计算 已 经 标准 化 的 数据 。 分 位 数 方 法 是 RMA 预 处 理 算 法 〈 见 5.3.4) 
默认 使 用 的 标准 化 方法 ， 这 里 不 做 详细 介绍 。 


例 5-10: 

# 安装 并 加 载 所 需 R 包 。 

library(affy); 

library (CLL); 

data(CLLbatch); 

# 使 用 mas 方法 做 背景 校正 。 

CLLmas5 <- bg.correct(CLLbatch, method="mas"); 

# 使 用 constant 方法 标准 化 。 

data mas5 <- normalize(CLLmas5, method = "constant"); 
# 查看 每 个 样品 的 缩放 倍数 。 

head(pm(data mas5)/pm(CLLmas5), 5); 

# 查看 第 二 个 样品 的 缩放 倍数 是 怎么 计算 来 的 。 
mean(intensity(CLLmas5)[.1 ]/ mean(intensity(CLLmas5)[.2]); 


芯片 内 标准 化 方法 针对 双 通 道 〈( 见 2.3.00 芯片 数据 ， 又 可 分 为 全 局 化 方法 〈Global 
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normalization) 和 荧光 强度 依赖 的 方法 〈Intensity-dependent normalization)。 前 一 种 方法 假设 
红色 染料 的 信号 强度 与 绿色 染料 的 信号 强度 是 正比 例 关 系 的 ， 即 R=kG (R: 红色 信号 强度 ; 
G: 绿色 信号 强度 ; k 假设 为 常数 )。 差 异 表达 值 (logz(R/G)) 在 标准 化 之 后 相当 于 平移 了 
个 常量 c=log (kK)， 数 学 上 表示 为 log2(R/G)- c = log(R/kG) = 0。 但 实际 上 ，c 并 不 是 一 个 常 
数 ， 而 是 另外 一 个 变量 的 A 的 函数 cA), XE A=1/2*log(R*G)， 这 一 点 可 以 从 MA 图 (图 
5-16A) 中 看 到 M 的 总 趋势 不 是 平行 于 x 轴 的 。 
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图 5-16 ”芯片 内 标准 化 (“Loess” 方 法 ) 前 后 MA 图 


MA (M 代表 Minus, A 代表 Average) 图 的 英文 全 称 是 : The distribution of the red/green 
intensity ratio plotted by the average intensity。MA 图 中 ， 定 义 M =logz (R/G), A-1/2*log; 
(R*G)，R 和 G 已 经 不 再 特 指 双 通 道 cDNA 芯片 中 红 和 绿 标 记 的 样品 表达 量 ， 可 以 表示 任 
何 两 个 需要 对 比 的 数据 。 在 单 通道 数据 中 ，R 和 G 来 自 需要 比较 的 两 张 芯片 数据 。MA 图 
反应 的 是 基因 在 对 比 的 样品 中 表达 差异 〈 对 数 化 的 ) 随 基因 信和 号 强度 变化 〈 对 数 化 的 ) 的 
分 布 。 

根据 全 局 化 方法 的 假设 ， 数 据 标准 化 后 的 MA 图 上 大 多 数 基因 的 差异 表达 值 (M 值 ) 
应 该 对 称 分 布 在 水 平 的 中 心 线 (M=0) 附近。 但 是 在 图 5-16A 中 ， 该 芯片 数据 的 M 值 在 低 
表达 区 有 总 体 向 下 偏 移 的 趋势 ， 因 此 全 局 化 方法 的 假设 不 成 立 。 只 能 采用 荧光 强度 依赖 的 
方法 ,将 M 调整 为 以 0 为 中 心 的 分 布 ， 这 类 方法 最 常用 的 是 Loess 方法 。Loess 方法 ， 简 单 
来 说 就 是 对 不 同 A 值 的 基因 进行 局 部 加 权 回 归 ， 得 到 一 条 蓝 色 的 直线 〈 图 5-16B)。 由 于 双 
通道 cDNA 芯片 现在 已 很 少 使 用 ， 这 里 不 在 具体 举例 如 何 编程 实现 芯片 内 标准 化 方法 。 


5.3.4 预 处 理 的 一 体 化 算法 
前 面 5.3.3 中 讲 到 了 通过 设 定 参数 ，expresso 函数 可 以 自动 化 实现 整个 预 处理 过 程 〈 背 


景 校 正 、 标 准 化 和 汇总 )。 除 了 expresso 函数 ， affyPLM 软件 包 提 供 了 threestep 函数 可 以 
更 快 地 实现 同样 的 功能 。 然 而 ， 在 这 类 函数 中 ， 如 果 三 步 处 理 中 的 每 一 步 都 要 用 户 自行 指 
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定 参 数 的 话 ， 那 会 出 现 很 多 种 参数 的 组 合 ， 而 实际 上 有 些 组 合 是 不 能 使 用 的 。 在 实际 工作 
中 ， 应 用 较 多 的 是 使 用 预 设 参数 的 一 体 化 算法 〈 表 5-2)， 用 户 可 在 不 知道 细节 的 前 提 下 调 
用 相关 函数 ， 大 大 简化 预 处 理 过 程 。 


表 5-2 预 处 理 方法 


方法 背景 校正 方法 标准 化 方法 汇总 方法 
MAS5 mas constant mas 
dChip mas invariantset liwong 
RMA rma quantile medianpolish 


常见 的 预 处 理 一 体 化 算法 都 已 经 由 Bioconductor 按照 同名 函数 包装 好 以 供用 户 调 
用 ,如 affy 包 的 MASS 和 RMA， 以 及 germa 包 的 gcRMA (基于 RMA 方法 ) 等 。 因 此 ， 
在 发 表 文章 或 学 术 交 流 中 ， 一 般 可 以 简单 地 说 使 用 了 某 种 一 体 化 算法 (如 RMA) 做 了 
芯片 数据 的 预 处 理 。 这 么 多 的 芯片 预 处 理 的 方法 究竟 哪个 最 好 ? Zhijin Wu 等 人 开发 了 R 
软件 包 affycomp 专门 用 于 方法 评估 ， 不 过 此 包 巨 大 ， 需 要 很 强 的 硬件 资源 支持 。 用 
Affycomp 包 做 评估 需要 两 个 系列 的 数据 , 一 个 是 RNA 稀释 系列 芯片 数据 , 称 为 Dilution 
data， 另 一 个 是 使 用 了 内 参 /外 标 RNA 的 芯片 ， 称 为 Spike-in data。Spike-in RNA 是 在 目 
标 物 种 中 不 存在 , 但 在 芯片 上 含有 相应 检测 探 针 的 RNA， 比 如 Affymetrix 的 拟 南 芥 芯片 
上 有 几 个 人 或 细菌 的 基因 检测 探 针 。 由 于 稀释 倍数 已 知 ， 内 参 /外 标的 RNA 量 和 杂交 特 
异性 也 已 知 ， 所 以 结果 可 以 预测 ， 也 就 可 以 用 于 方法 评估 。 对 于 严格 的 芯片 分 析 来 说 ， 
方法 评估 是 必需 的 。 

在 实际 工作 中 ， 使 用 得 较 多 的 是 MAS5 和 RMA 算法 ，RMA 算法 及 其 衍生 算法 
使 用 的 最 多 ; 而 dChip 很 少 使 用 ， 而 且 由 于 非 开 源 ， 没 有 被 Bioconductor 集成 。 这 里 不 
再 介绍 MASS 和 RMA 算法 的 细节 ， 仅 对 其 差异 做 一 个 简单 对 比 。 

* MASS 每 个 芯片 可 以 单独 进行 标准 化 ，RMA 由 于 采用 的 是 多 芯片 模型 (Multi-chip 
model) 需要 所 有 芯片 一 起 进行 标准 化 。 

* MASS 利用 MM 探 针 的 信息 去 除 背 景 噪声 , 基本 思路 是 MP-MM; RMA 不 使 用 MM 
信息 ， 而 是 基于 PM 的 信号 分 布 采用 随机 模型 来 估计 表达 值 。 

* RMA 处 理 后 的 数据 是 经 过 以 2 为 底 的 对 数 转换 的 ， 而 MASS 不 是 ， 这 一 点 非常 重 
要 ， 因 为 很 多 芯片 分 析 软 件 或 函数 需要 的 输入 数据 必须 是 经 过 对 数 转 换 的 〈 见 例 5-13). 

通过 绘制 信号 强度 分 布 图 (这 里 采用 直方 图 〉 曲线 以 及 箱 线 图 ， 可 以 比较 不 同 算法 的 
处 理 效果 〔 见 例 5-11)。 


例 5-1 1 $ 

# 加 载 所 需 及 包 。 
library(affy); 
library (gcrma); 
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library(affyPLM) ; 

library(RColorBrewer); 

library (CLL); 

data (CLLbatch) ; 

colors «- brewer.pal(12, "Set3"); 

# 使 用 MAS5 算法 来 预 处 理 数据 。 

CLLmasS5 <- masS(CLLbatch) ; 

+ 使 用 rma 算法 来 预 处 理 数据 。 

CLLrma <- rma(CLLbatch) ; 

# 使 用 gcrma 算法 来 预 处 理 数据 。 

CLLgcrma <- gcrma(CLLbatch) ; 

# 直方 图 。 

hist(CLLbatch, main = "original", col = colors) ; 

legend("topright", rownames(pData(CLLbatch)), col = colors, lwd = 1, inset = 0.05, cex = 
0.5, ncol 2 3) ; 

hist(CLLmas5, main = "MAS 5.0", xlim = c(-150, 2^10), col = colors) ; 

hist(CLLrma, main = "RMA", col = colors) ; 

hist(CLLgcrma, main = "gcRMA", col = colors) ; 

8 箱 线 图 。 

boxplot(CLLbatch, col = colors, las = 3, main = "original") ; 

boxplot(CLLmass5, col = colors, las = 3, ylimzc(0, 1000), main = "MAS 5.0") ; 

boxplot(CLLrma, col = colors, las = 3, main = "RMA") ; 

boxplot(CLLgcrma, col = colors, las = 3, main = "zcRMA"); 


从 信和 号 强度 分 布 图 来 看 〈 图 $-17)，MAS5 算法 处 理 后 的 数据 出 现 了 很 多 负数 ， 读 者 可 
以 进一步 通过 了 解 MAS5 算法 细节 去 理解 这 些 负数 是 怎么 来 的 。 从 图 5-17 中 还 可 以 看 到 ， 
原本 并 不 重合 的 多 条 分 布 曲 线 〈 图 5-17A) 在 经 过 了 RMA 算法 处 理 后 重合 到 了 一 起 (图 
5-17C)， 有 利于 下 一 步 的 差异 表达 分 析 。 但 是 它 却 表现 出 两 个 峰值 ， 这 并 不 符合 高 斯 正 态 
分 布 。 如 果 采 用 gcRMA 算法 处 理 ， 不 但 所 有 的 曲线 很 好 地 重合 到 了 一 起 ， 而 且 它 们 的 分 布 
也 更 加 近似 高 斯 分 布 (图 5-17D)。 因 此 ，gcRMA 算法 对 RMA 算法 的 改进 在 这 一 组 数据 
上 表现 得 十 分 明显 。 然 而 ， 这 并 不 意味 着 gcRMA 算法 总 是 优 于 RMA 算法 ， 对 于 不 同 的 
数据 ， 需 要 进行 算法 比较 ， 才 能 进一步 确定 哪 种 算法 最 合适 。 

通过 箱 线 图 (图 5-18)， 可 以 看 到 三 种 算法 处 理 后 的 各 样品 的 中 值 十 分 接近 。MAS5 算 
法 总 体 而 言 还 是 不 错 的 ， 只 是 有 一 定 的 拖 尾 现象 。 而 gcRMA 的 拖 尾 现象 比 RMA 要 明显 
得 多 。 这 说 明 针对 低 表 达 量 的 基因 ，RMA 算法 比 gcRMA 算法 表现 更 好 一 些 。 
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图 5-17 信号 强度 分 布 图 的 直方 图 ( 见 彩 图 ) 


还 可 以 通过 MA 图 (图 5-19) 来 查看 标准 化 处 理 的 效果 。 从 例 5-12 中 (只 示例 CLL 
中 一 部 分 数据 ) 可 以 看 出 : 在 原始 数据 中 ， 中 值 〈 红 色 曲 线 ) 偏离 0， 经 过 gcRMA 预 处 
理 之 后 ， 中 值 基本 保持 在 零 线 上 。 注意 ,运行 例 5-12 最 后 一 行 代码 时 ，MAplot 函数 不 支持 
ExpressionSet 类 型 的 数据 CLLgcrma， 读 者 可 尝试 将 其 转 为 AffyBatch 类 型 后 再 运行 。 


例 5-12: 

# 加 载 所 需 及 包 。 
library (gcrma); 
library(RColorBrewer); 
library (CLL); 

library (affy); 

data (CLLbatch) ; 
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colors <- brewer.pal(12, "Set3"); 


# 使 用 germa 算法 来 预 处 理 数据 。 


CLLgcrma <- gcrma(CLLbatch); 


MAplot(CLLbatch[, 1:4], pairs = TRUE, plot.method = "smoothScatter", cex = 0.8, main 


"original MA plot"); 


"smoothScatter", cex — 0.8,main 


MAplot(CLLgcrma[, 1:4], pairs = TRUE, plot.method 


"gcRMA MA plot"); 
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图 5-18 
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图 5-19 ”gcRMA 处 理 前 后 的 MA 图 ( 见 彩 图 ) 


5.4 基因 芯片 数据 分 析 


本 书 2.3.3 提 到 了 基因 表达 差异 的 显著 性 分 析 在 基因 表达 数据 分 析 中 的 特殊 地 位 ， 而 且 
这 个 地 位 很 大 程度 上 都 是 基于 芯片 领域 的 经 验 得 来 的 。 尽 管 研究 人 员 不 断 改进 芯片 试验 和 
统计 学 方法 ， 并 不 断 寻 求 一 些 新 的 方法 (例如 机 器 学 习 〉 来 分 析 芯 片 数据 ， 当 前 最 主要 的 
应 用 依然 还 是 基因 表达 差异 的 显著 性 分 析 。 本 节 从 例 5-13 到 5-17 的 程序 涵盖 了 一 个 显著 
性 分 析 的 完整 流程 ， 读 者 可 以 一 次 运行 全 部 代码 ， 也 可 以 拆 分 运行 以 便于 逐个 掌握 ， 但 是 
必须 连续 运行 所 有 程序 ， 因 为 后 面 的 程序 依赖 前 面 程序 的 输出 。 通 过 这 几 个 实例 ， 读 者 可 
以 清晰 地 把 握 Bioconductor 处 理 芯 片 数 据 的 完整 过 程 。 


5.4.1 选取 差异 表达 基因 


基因 表达 差异 的 显著 性 分 析 的 第 一 步 就 是 选取 表达 具有 显著 性 差异 的 基因 。 总 体 来 说 ， 
这 类 分 析 的 基本 假设 是 标准 化 的 芯片 数据 符合 正 态 分 布 ， 因 此 所 用 的 统计 方法 基本 上 就 是 
T/F 检验 和 方差 分 析 或 者 改进 的 TF 检验 和 方差 分 析 。 当 前 ， 常 用 的 分 析 方 法 主要 有 : T 检 
验 .SAM(Significance analysis of microarrays ) 方 法 中] ,CyberT 方法 四 、 经 验 贝 叶 斯 (Empirical 
Bayes) 方法 四 、 方 差分 析 (The Analysis Of Variance, ANOVA) 00 和 RP (Rank products) 
HA, 

RP 方法 通过 计算 基因 表达 值 的 几何 平均 值 及 其 排序 的 变化 来 比较 两 组 间 的 差异 。 
SAM, CyberT 和 经 验 贝 叶 斯 都 是 调整 后 的 工 检验 ， 而 且 后 两 种 方法 都 采用 了 贝 叶 斯 方法 进 
行 调整 。CyberT 将 标准 差 及 信和 号 强度 的 关系 使 用 线性 模型 进一步 强化 ， 提 高 了 准确 率 ， 有 
研究 指出 ， 它 的 计算 结果 要 好 于 SAM 算法 。 经 验 贝 叶 斯 又 在 CyberT 基础 上 进行 了 改进 : 
首先 ， 经 验 贝 叶 斯 在 计算 标准 差 时 考虑 的 是 全 部 的 基因 ， 而 不 是 排序 后 相近 的 〈《 人 为 设 定 


= 


的 同一 个 窗口 范围 内 ) 基因 "4， 其 次 ， 经 验 贝 叶 斯 不 再 局 限于 两 组 数据 ， 可 以 通过 设计 实 
验 对 比 矩 阵 ， 计 算 多 种 复杂 条 件 下 的 差异 表达 。 因 此 ， 经 验 贝 叶 斯 是 当前 最 为 常用 的 分 析 
方法 ， 它 已 经 完整 地 由 Bioconductor 中 的 limma 包 实现 。 但 是 ， 总 体 来 说 ， 现 在 没有 任 
何 理论 或 者 经 验 能 够 证 明 哪 种 算法 是 最 好 的 。 

limma 是 基于 R 和 Bioconductor 平台 的 分 析 芯 片 数据 的 综合 软件 包 ， 该 包 功 能 齐全 、 
教程 完善 、 使 用 率 极 高 ， 几 乎 成 为 了 芯片 数据 处 理 流程 的 代名词 站。 例 5-13 是 应 用 limma 
包 计 算 CLL 数据 集中 差异 表达 基因 的 整个 流程 。 


例 5-13: 

# 安装 并 加 载 所 需 及 包 。 

source(http://Bioconductor.org/biocLite.R"); 

biocLite(**limma") ; 

library(limma) ; 

library (germa); 

library (CLL); 

data (CLLbatch) ; 

data(disease); 

# 从 CLL 数据 集中 去 除 样品 CLLI1、CLL10 和 CLLI3. 

CLLbatch <- CLLbatch[, -match(c("CLLIO.CEL", "CLLI.CEL", "CLLI13.CEL"), 
sampleNames(CLLbatch))]; 

# 使 用 gcrma 算法 来 预 处 理 数 据 。 

CLLgcrma <- gcrma(CLLbatch); 

# 去 除 CLLgcrma 样品 名 中 的 “.CEL ”。 

sampleNames(CLLgcrma) <- gsub(".CEL$", "", sampleNames(CLLgcrma)); 

4 去 除 disease 中 对 应 样品 CLL1, CLL10 和 CLLI3 的 记录 。 

disease <- disease[match(sampleNames(CLLgcrma), disease[," SampleID" ]),]; 

8 构建 余下 21 个 样品 的 基因 表达 矩阵。 

eset «- exprs(CLLgcrma) ; 

# 提取 实验 条 件 信息 。 

disease <- factor(disease[, "Disease"]); 

# 构建 实验 设计 矩阵 。 

design <- model.matrix(~-1+disease); 

# 构建 对 比 模型 ， 比 较 两 个 实验 条 件 下 表达 数据 。 

contrast.matrix <- makeContrasts (contrasts = "diseaseprogres. - diseasestable", levels = 
design); 

# 线性 模型 拟 合 。 

fit <- ImFit(eset, design) ; 

# 根据 对 比 模型 进行 差 值 计算 。 


fitl <- contrasts.fit(fit, contrast.matrix) ; 
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# 贝 叶 斯 检验 。 

fit2 <- eBayes(fitl) ; 

# 生成 所 有 基因 的 检验 结果 报表 。 

dif <- topTable(fit2, coef = "diseaseprogres. - diseasestable", n = nrow(fit2), lfc = 
log2(1.5)) ; 

# 根据 P.Value 对 结果 进行 筛选 ， 得 到 全 部 差异 表达 基因 。 

dif <- dif[dif[, "P.Value"] < 0.01, ] ; 

# 显示 结果 的 前 六 行 。 


head(dif) ; 

THE ID logFC AveExpr t P.Value adj.P. Val B 

dH 9491 39400 at -0.9997850 5.634004 -5.727329  1.482860e-05 0.1034544 2.4458354 
HH 327 1303 at -1.3430306 4.540225 -5.596813  1.974284e-05  0.1034544 2.1546350 
H 3827 33791_at 1.9647962 6.837903 5.400499 3.047498e-05 0.1034544 1.7135583 
HH 6191 36131 at 0.9574214 9.945334 5.367741 3.277762e-05 | 0.1034544 1.6396223 
dH 7710 37636 at — 2.0534093 5.478683 5.120519  5.699454e-05  0.1439112 1.0788313 
iE 6182 36122 at . 0.8008604 7.146293 . 4.776721 1.241402e-04 — 0.2612118 0.2922106 


首先 ， 可 以 从 最 终结 果 〈 即 变量 “dif”) 中 查看 所 有 的 两 组 数据 《〈 即 恶化 期 与 稳定 期 ) 
之 间 差 异 表 达 基 因 的 信息 。 每 行 数据 对 应 一 个 探 针 组 ， 包 括 8 列 信息 : 第 1 列 是 探 针 组 在 
基因 表达 矩阵 eset 中 的 行 号 ; 第 2 列 “ID” 是 探 针 组 的 Affymatrix ID; 第 3 列 “logFC” 是 
两 组 表达 值 间 以 2 为 底 对 数 化 的 变化 倍数 CFold change，FC)， 注 意 由 于 基因 表达 矩阵 eset 
本 身 已 经 取 了 对 数值 ， 因 此 这 里 实际 上 只 是 两 组 基因 表达 值 均 值 之 差 ， 第 4 列 “AveExpr” 
是 该 探 针 组 在 所 有 样品 中 的 平均 表达 值 (Average expression value ); 第 5 列 “t” 是 贝 叶 斯 
调整 后 的 两 组 表达 值 间 工 检验 中 的 t+ 值 ; 第 6 列 “PValue” 是 贝 叶 斯 检验 得 到 的 P 值 ; 第 7 
列 “adj.PValue” 是 调整 后 的 P 值 (adjusted P Value); 第 8 列 “B” 是 经 验 贝 叶 斯 得 到 的 标 
准 差 的 对 数 化 值 ， 由 于 涉及 较 深 的 数学 基础 ， 这 里 不 再 涉及 。 为 了 加 深 理 解 imma 的 计算 
过 程 ， 读 者 可 以 用 简单 函数 来 得 到 探 针 组 “39400_at” 的 行 号 、“AveExpr” 和 “logFC”。 

然后 ， 逐 次 介绍 这 个 分 析 过 程 的 六 个 关键 步骤 : 构建 基因 表达 秆 阵 、 构 建 实验 设计 算 
阵 、 构 建 对 比 模型 〈 也 叫 对 比 矩 阵 )、 线 性 模型 拟 合 、 贝 叶 斯 检验 和 生成 结果 报表 。 

构建 基因 表达 矩阵 时 ， 需 要 注意 的 是 ，limma 对 输入 数据 的 要 求 是 必须 是 经 过 对 数 转 
换 的 表达 值 。 例 5-13 调用 了 gcRMA 算法 来 对 数据 进行 预 处 理 ， 得 到 标准 化 后 的 基因 表达 
FERE eset， 这 个 矩阵 是 经 过 对 数 转换 的 。 但 是 ， 如 果 是 从 其 他 算法 〈 例 如 MASSO 得 到 的 数 
据 ， 还 需 自行 编程 进行 对 数 转 换 。 

实验 设计 矩阵 需要 调用 model.matrix 函数 构建 ， 该 函数 需要 用 户 指定 一 个 公式 ， 构 建 
好 的 实验 设计 矩阵 design 要 提供 给 下 一 步 的 拟 合 函 数 ImFit。 通 过 查看 design 变量 ， 可 以 看 
到 下 面 内 容 : 实验 设计 矩阵 的 每 一 行 对 应 一 个 样品 的 编号 ， 每 一 列 对 应 样品 的 一 个 特征 ， 
每 个 特征 实际 上 形成 了 一 个 包含 若干 样品 的 组 ， 通 过 比较 不 同 组 闻 的 基因 表达 值 〈 一 般 是 
平均 值 )， 就 可 以 得 到 差异 表达 基因 。 比 如 ， 在 例 5-13 中 ， 一 共有 21 个 样品 ， 它 只 考虑 
了 一 个 因素 ， 即 疾病 状态 〈disease)， 这 个 因素 有 两 个 水 平 ， 即 恶化 (progressive) 和 稳定 
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(stable)， 最 后 实验 矩阵 中 出 现 了 diseaseprogres. 和 diseasestable 两 个 特征 。 多 因素 和 多 水 平 
的 实验 设计 ， 会 产生 更 多 的 特征 ， 这 里 不 做 讨论 。 


design diseaseprogres. diseasestable 
1 1 0 
2 0 1 
3 1 0 
4 1 0 
5 1 0 
0 0 1 
7 0 1 
8 1 0 
9 0 1 
10 1 0 
11 0 1 
12 1 0 
13 0 1 
14 0 1 
15 1 0 
16 1 0 
17 1 0 
18 1 0 
19 1 0 
20 1 0 
21 0 1 


比较 模型 需要 调用 makeContrasts 函数 构建 ， 该 函数 需要 用 户 指 定 一 个 公式 ， 这 个 公式 
表明 用 户 要 求 对 实验 矩阵 design 中 的 哪 一 列 特征 和 哪 一 列 特征 进行 比较 ， 以 得 到 差异 。 例 
5-13 指定 的 是 在 恶化 和 稳定 两 个 水 平 之 间 进 行 比 较 ， 以 寻找 这 两 个 水 平 之 间 的 差异 表达 基 
因 ， 因 此 ， 公 式 表示 为 contrasts =“diseaseprogres. — diseasestable”， 注 意 “diseaseprogres.” 
中 的 “.” 是 CLL 数据 集中 对 “progressive” 简 写 带 来 的 ， 不 是 运算 符号 。 

接 下 来 是 根据 实验 设计 矩阵 调用 函数 对 基因 表达 和 矩阵 做 线性 拟 合 ImFit(eset, design) ， 
根据 对 比 模型 进行 差 值 计算 ,最 后 是 贝 叶 斯 检验 ( 见 $5.4.1)。 由 于 这 些 涉 及 较 深 的 统计 学 背 
景 ， 这 里 不 再 讨论 。 

最 后 ,重点 讲 一 下 topTable 函数 , 它 的 主要 功能 有 三 项 :对 贝 叶 斯 检验 得 到 的 “P.Value” 
进行 调整 得 到 “adj.P.Value”， 调 整 的 算法 默认 是 BH (Benjamini-hochberg) 算法 ; @ 生 成 全 
部 基因 的 检验 结果 报表 ，@@ 还 可 以 通过 某 个 参数 来 筛选 具有 显著 性 差异 表达 的 基因 ， 通 常 
使 用 “adj.PValue”， 常 用 的 益 值 一 般 是 0.05 或 者 0.01， 也 可 以 使 用 “PValue”( 见 例 5-13)。 
这 里 有 三 点 需要 注意 : (DtopTable 提供 了 多 种 方法 可 以 做 基因 筛选 ， 例 5-13 就 通过 对 数 化 
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的 变化 倍数 “lfc” 去 掉 了 一 些 在 两 组 条 件 下 变化 不 大 的 基因 ， 但 是 这 样 做 的 理由 并 不 是 很 
充分 ， 因 为 变化 倍数 不 大 的 不 一 定 就 是 没有 显著 变化 ; @topTable 还 提供 了 参数 可 以 对 基因 
进行 排序 ， 比 如 使 用 “adj.PValue” 从 小 到 大 排序 ， 可 以 很 清楚 地 看 到 变化 最 显著 的 基因 和; 
@ 显 著 性 基因 的 选取 具有 一 定 的 主观 性 ， 阐 值 设 定 是 0.01 还 是 0.05 并 没有 严格 的 标准 。 


5.4.2 ”注释 


找到 了 差异 表达 基因 ， 接 下 来 是 使 用 注释 包 对 差异 表达 基因 进行 注释 。 在 4.2.3 中 的 注 
释 一 部 分 讲解 中 提 到 过 Bioconductor 的 几 种 注释 方式 ， 对 Affymetrix 芯片 产生 的 差异 表达 
基因 的 注释 就 采用 第 一 类 注释 方式 , 即 下 载 对 应 具体 平台 的 注释 包 , 进行 本 地 注释 。 例 5-14 
使 用 Bioconductor 提供 的 hgu95av2 注释 包 为 例 5-13 中 选取 的 差异 表达 基因 进行 注释 (这 
部 分 代码 需要 在 例 5-13 后 执行 )。 例 5-14 只 用 两 种 基因 ID 来 对 探 针 组 进行 注释 ， 有 关 用 
基因 本 体 论 (GO) "P EE (Pathway) 注释 “2 的 内 容 与 5.4.3 的 GO 和 通路 富 集 分 析 
一 起 讲解 。 


例 5-14: 

# 加 载 注 释 工 具 包 。 

library(annotate) ; 

# 获得 基因 芯片 注释 包 名 称 。 

affydb <- annPkgName(CLLbatch@annotation, type = "db ); 

# 查看 基因 芯片 注释 包 名 称 。 

affydb 

## [1] "hgu95av2.db" 

# 加 载 注释 包 hgu95av2.db， 必 须 设 定 character.only。 

library(affydb, character.only = TRUE) ; 

+ 根据 每 个 探 针 组 的 ID 获取 对 应 的 基因 Gene Symbol， 并 作为 一 个 新 的 列 ， 加 到 数据 
框 dif 最 后 。 

dif$symbols <- getSYMBOL(rownames(dif), affydb) ; 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 基因 Entrez ID， 同 样 加 到 数据 框 dif 最 后 

dif$EntrezID <- getEG(rownames(dif), affydb) ; 

8 显示 结果 的 前 六 行 。 


head(dif) ; 

HR ID logFC AveExpr t P. Value adj.P. Val B symbols EntrezID 
## 39400_at -0.9997850 5.634004 -5.727329 1.482860e-05 0.1034544  2.4458354  TBCID2B 23102 
## 1303_at — -1.3430306 4.540225 -5.596813 1.974284e-05 0.1034544  2.1546350 SH3BP2 6452 

## 33791 at 1.9647962 6.837903 5.400499 3.047498e-05 0.1034544  1.7135583 DLEUI 10301 
# 36131 at 0.9574214 9.945334 5.367741 3.277762e-05 0.1034544  1.6396223 CLICI 1192 

iHt 37636_at 2.0534093 5.478683 5.120519 5.699454e-05 0.1439112  1.0788313 PHF16 9767 

## 36122 at 0.8008604 7.146293 4.776721 1.241402e-04 0.2612118  0.2922106 | «NA» «NA» 
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例 5-14 注释 实质 上 就 是 一 个 ID 映射 的 过 程 〈 见 2.3.1)， 也 就 是 把 芯片 探 针 组 的 ID 映 
射 到 基因 国际 标准 名 称 (Gene symbol) 和 Entrez ID 两 种 ID E. Gene symbol 是 由 人 类 基因 
命名 委员 会 (The HUGO Gene Nomenclature Committee, HGNC) 为 每 个 人 类 基因 提供 的 唯 
一 命名 ， 一 般 是 大 写 拉 丁字 母 缩写 形式 ， 后 面 可 加 数字 ， 非 常 便于 人 工 阅 读 。Gene symbol 
的 最 主要 特点 就 是 唯一 性 和 普遍 性 。 大 多 数 科研 工作 者 看 到 这 个 名 字 就 能 直接 联系 到 这 个 
基因 的 简单 功能 等 信息 。 最 后 一 列 的 所 谓 Entrez ID 实际 上 是 NCBI 数据 库 中 的 GI (GenInfo 
Identifier), NCBI 对 于 每 一 条 提交 的 序列 , 根据 其 存 入 NCBI 数 据 库 时 的 先后 顺序 赋 给 一 个 
整数 , 这 就 是 GI。 这 里 增加 一 列 GI 的 目的 ,就 是 为 了 下 一 步 通过 GI 映 射 到 基因 本 体 论 (GO)， 
然后 做 GO 的 富 集 分 析 。 


5.4.3 统计 分 析 及 可 视 化 


差异 基因 注释 后 的 下 一 步 工作 就 是 统计 分 析 和 可 视 化 〈 见 2.3)。 对 于 差异 表达 分 析 ， 
最 主要 的 两 种 统计 分 析 就 是 GO 的 富 集 分 析 〈 见 2.4.4) 和 KEGG 通路 的 富 集 分 析 572 〈 见 
2.4.5)。 这 两 种 分 析 分 别 由 Bioconductor 的 GOstats 包 〈 见 例 5-15) 和 GeneAnswers &, (HL 
例 5-16) 实现 。 


例 5-15: 

# Wand RE. 

library(GOstats); 

# 提取 HG U95Av2 局 片 中 所 有 探 针 组 对 应 的 EntrezID， 注 意 保证 uniq。 

entrezUniverse <- unique(unlist(mget(rownames(eset), hgu95av2ENTREZID))) ; 

# 提取 所 有 差异 表达 基因 及 其 对 应 的 EntrezID， 注 意 保证 uniq。 

entrezSelected <- unique(dif[!is.na(dif$EntrezID), "EntrezID"]); 

# 设置 GO 富 集 分 析 的 所 有 参数 。 

params <- new("GOHyperGParams", genelds = entrezSelected, universeGenelds = 
entrezUniverse, 

annotation = affydb, ontology = "BP", pvalueCutoff = 0.001, conditional = FALSE, 
testDirection = "over"); 

# 对 所 有 的 GOterm 根据 params 参数 做 超 几 何 检验 。 

hgOver <- hyperGTest(params); 

# 生成 所 有 GOterm 的 检验 结果 报表 。 

bp <- summary(hgOver) ; 

# 同时 生成 所 有 GOterm 的 检验 结果 文件 ， 每 个 GOterm 都 有 指向 官方 网 站 的 链接 ， 可 
以 获得 其 详细 信息 。 

htmlReport (hgOver, fileZ'ALL. go.html") ; 

# 显示 结果 的 前 六 行 。 

head (bp) ; 
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## GOBPID Pvalue OddsRatio ExpCount Count Size 
## 1 GO:0022904 1.506871e-10 16.342857 0.9699506 12 75 
## 2 GO:0022900 2.159531e-10 13.554352 1.2415367 13 96 
1H 3 GO:0045333 6.012575e-10 12.349920 1.3449981 13 104 
iH 4 | GO:0055114 3.436386e-08 4.996817 5.2377330 21 405 
## 5 | GO:0015980 6.778482e-08 6.222680 3.1297071 16 242 
## 6 | GO:0006091 1.486143e-07 5.201994 4.2160517 18 326 
THE Term 

3HE T respiratory electron transport chain 

1H 2 electron transport chain 

13H83 cellular respiration 

1H 4 oxidation-reduction process 

THES energy derivation by oxidation of organic compounds 

1Ht 6 generation of precursor metabolites and energy 


从 例 5-15 最 终结 果 〈 即 变量 “bp”) 可 以 看 到 每 个 显著 性 富 集 的 GO term 含有 六 列 信 
息 (不 包括 行 号 ): 第 1 列 是 GO term 的 ID, i% ID 对 应 的 内 容 在 后 面 列 出 , 如 “GO:0022900” 
对 应 后 面 的 “respiratory electron transport chain"; 第 2 列 “Pvalue” 是 超 几 何 检验 的 P 值 ; 
第 3 列 “OddsRatio” 是 超 几 何 分 布 中 的 比值 比 ， 第 4 列 “ExpCount” 是 根据 超 几 何 分 布 ， 
差异 表达 基因 中 期 望 属于 这 个 GO term 的 基因 数量 ; 第 5 列 “Count” 是 差异 表达 基因 中 
实际 属于 这 个 GO term 的 基因 数量 ; 第 6 列 “Size” 是 总 基因 中 属于 这 个 GO term 的 基因 
数量 , 以 “GO:0022904” 为 例 , 此 次 分 析 的 总 基因 数量 为 8804, 差异 表达 基因 数量 为 113 8804 
个 基因 中 有 75 个 基因 CHI *Size") 属于 “GO:0022904”， 如 果 从 8804 个 基因 中 随机 抽取 
113 个 基因 ， 那 么 113 个 基因 中 期 望 属于 “GO:0022904” 的 基因 数量 应 该 是 2.25 CH 
“ExpCount”)， 而 实际 上 是 12 个 ( 即 “Count”)， 根 据 这 个 情况 ， 计 算出 来 的 P 值 应 该 是 
1.506871e-10 《〈 远 远 小 于 0.00, 因此 可 以 说 差异 显著 基因 在 “GO:0022904” 上 是 显著 富 
集 的 。 为 了 加 深 理解 GO 富 集 分 析 的 计算 过 程 ， 读 者 可 以 用 简单 函数 来 计算 P 值 。 另 外 ， 
例 5-15 还 通过 函数 htmlReport 输出 了 一 个 HTML 的 报告 文件 ， 它 在 前 面 六 列 信 息 的 基础 
上 ， 多 加 了 一 列 GO term 的 描述 ， 并 且 链 接 到 GO 的 官方 网 站 ， 便 于 读者 进一步 查看 相关 
信息 。 

值得 注意 的 是 ， 对 比例 5-15 和 例 5-14 的 结果 报表 ， 可 以 看 到 例 5-15 的 报表 bp 没有 
根据 P 值 来 筛选 统计 上 显著 富 集 的 GO term， 因 此 包括 了 全 部 的 GO term. 


例 5-16: 

# 安装 并 加 载 所 需 尺 包 。 
source("http://Bioconductor.org/biocLite.R"); 
biocLite("GeneAnswers"); 

library(GeneAnswers) ; 

# 选取 dif 中 的 三 列 信息 构成 新 的 矩阵 ， 第 一 列 必 须 是 EntrezID. 
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humanGeneInput <- dif[, c("EntrezID", "logFC", "P.Value")]; 

3Ht 获得 humanGeneInput 中 基因 的 表达 值 。 

humanExpr <- eset[match(rownames(dif), rownames(eset)), ] ; 

# 前 两 个 数据 做 列 合并 ， 第 一 列 必须 是 EntrezID. 

humanExpr <- cbind(humanGeneInput[, "EntrezID"], humanExpr) ; 

# 去 除 NA 数据 。 

humanGeneInput <- humanGeneInput[!is.na(humanGeneInput[， 1]), ] ; 

humanExpr <- humanExpr[!is.na(humanExpr[, 1]). ] ; 

# KEGG 通路 的 超 几 何 检验 

y <- geneAnswersBuilder(humanGenelInput, "org.Hs.eg.db", categoryType = "KEGG", 
testType = "hyperG", pvalueT = 0.1, geneExpressionProfile = humanExpr, verbose = FALSE) ; 

getEnrichmentInfo(y)[1:6,]; 


genes in Category percent in the observed List percent in the genome fold of overrepresents odds ratio p value 
05012 12 0.2222222 0.02214651 10.034188 13.796610 1.299916e-09 
05010 13 0.2407407 0.02844974 8.461965 11.657586 2.018105e-09 
00190 11 0.2037037 0.02248722 9.058642 12.040169 2.057705e-08 
05016 12 0.2222222 0.03117547 7.128112 9.431913 6.424705e-08 
04260 7 0.1296296 0.01311755 9.882155 12.225532 5. 477311e-06 
01100 22 0.4074074 0.19250426 2.116355 2.921255 2.067770e-04 


例 5-16 调用 GeneAnswers 包 实 现 了 KEGG 通路 的 注释 、 统 计 和 可 视 化 的 功能 。 而 且 
GeneAnswers 功能 强大 ， 除 了 KEGG， 还 可 以 支持 GO. REACTOME 和 CABIO 等 多 个 数 
据 库 ， 可 以 通过 设 定 参 数 categoryType 分 别 指定 注释 类 型 。 从 例 5-16 最 终结 果 可 以 看 到 每 
个 显著 性 富 集 的 通路 含有 6 列 信息 〈 不 包括 行 号 ): 第 1 列 “genes in Category” 表 示 有 多 少 
个 基因 属于 这 个 通路 ， 第 2 列 “percent in the observed List” 表 示 在 观察 到 的 基因 列表 中 的 
比例 ; 第 3 列 “percent in the genome” 是 在 基因 组 中 的 比例 ; 第 4 列 “fold of overrepresents " 
是 基因 过 表达 的 倍数 ;第 5 列 “OddsRatio” 是 超 几何 分 布 中 的 比值 比 ; 第 6 列 “Pvalue” 
是 超 几 何 检验 的 P 值 。 

可 视 化 可 以 直观 显示 统计 结果 ， 帮 助 研究 人 员 进 一 步 理 解 实验 结果 并 找到 下 一 步 工作 
的 思路 ， 因 此 可 视 化 和 统计 分 析 密 不 可 分 。Bioconductor 的 所 有 统计 分 析 包 几乎 都 提供 了 
相应 的 函数 来 显示 数据 分 析 结 果 。 这 里 根据 前 面 的 分 析 结 果 , 调用 pheatmap 包 来 绘制 差异 
表达 谱 热 图 (图 5-20); 调用 Rgraphviz 包 来 绘制 显著 富 集 的 GO term 的 关系 图 ; 最 后 绘制 
显著 富 集 的 KEGG 通路 的 关系 图 和 热 图 。 


例 5-17: 

# 安装 并 加 载 所 需 及 包 。 
source("http://Bioconductor.org/biocLite.R"); 
biocLite("pheatmap"); 

library(pheatmap); 

# 从 基因 表达 矩阵 中 ， 选 取 差 异 表 达 基 因 对 应 的 数据 。 
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selected <- eset(rownames(dif), ] ; 

# 将 selected 托 阵 每 行 的 名 称 由 探 针 组 ID 转换 为 对 应 的 基因 symbol. 

rownames(selected) <- dif$symbols; 

# 考虑 到 显示 比例 ， 我 们 只 画 前 20 个 基因 的 热 图 。 

pheatmap(selected[1:20, ], color = colorRampPalette(c("green", "black", "red"))(100), 
fontsize row = 4, scale = "row", border color = NA); 


# 安装 并 加 载 所 需 R 包 。 

source("http://Bioconductor.org/biocLite.R"); 

biocLite("Rgraphviz"); 

library(Rgraphviz); 

# 显著 富 集 的 GO term 的 DAG 关系 图 ， 见 图 5-21. 

ghandle <- goDag(hgOver) ; 

# 该 图 巨大 ， 只 能 取 一 部 分 数据 构建 局 部 图 。 

subGHandle <- subGraph (snodes-as.character(summary(hgOver)[ ,1]), graph=ghandle) ; 

plot(subGHandle) ; 

# 显著 富 集 的 KEGG 通路 的 关系 图 ， 见 图 5-22. 

yy <- geneAnswersReadable (y,verbose = FALSE); 

geneAnswersConceptNet (yy, colorValueColumnz- "logFC", centroidSize —"pvalue", output 
= "interactive"); 

# 显著 富 集 的 KEGG 通路 的 热 图 ， 见 图 5-23. 

yyy <- geneAnswersSort (yy, sortBy-"pvalue"); 

geneAnswersHeatmap(yyy) 
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图 5-20 ”差异 表达 谱 热 图 ( 见 彩 图 ) 
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图 5-21 显著 富 集 的 GO term 的 关系 图 


ITBR3 
NDU®ABI 
COR7B 
ND BS 、 
CORSA 
AAA ATRUB3 
Alzheimer's díscase 
NDWEXI1- 一 人 m ~- Pikinson's disease 一 DM NN / 
"Oxidatiye phosplirVjatior / E ~$ . 
| - RNL DN Cardiac muscle contraction 
~ | /A V 








/ i : A 
" [I 
p^ | 
pg" i 
ATEEG3 | 


COR6A1 


ATWSH 


图 5-22 显著 富 集 的 KEGG 通路 的 关系 图 ( 见 彩 图 ) 


141 Q 


142 R 语言 与 Bioconductor 生物 信息 学 应 用 








G 
co 
6z 

EE 
Oa SE 
由 
82955 
3989525 
5588p 
3 
50:085 
号 与 中 上 

TOC OW o) 0orcoo020::-tcwuosx EPgig 

v2 oo 5 4 v € v CV C C C CQ C e TH Q r- e o LE-TE- Es] 

J3 ddJdJ3dJdJ dJ dJ dJ dJ dJ dJ d3 JJJ JJJ -Y tT RM 

E 24 LL LJ Z4 Lj IJ oJ Li LJ n4 l1: i4 | 23 on N5mí50x« 

OOO0O000000000000000000 «r&óó 


ITPR3 e 

NDUFA1 oeoo 
COX5A eveececc 
COX6A1 eeecc 
UQCRQ veeecc 
ATP5H eecoc 
ATP1B3 . 
COX6C eeecc 
ATP5GS3 eeeo 
NDUFAB1 eeee 
CYCS eoe 
COX7B eeecc 
NDUFBS3 eec 


COX8A ececcce 





图 5-23 显著 富 集 的 KEGG 通路 的 热 图 ( 见 彩 图 ) 
# 输出 会 话 信息 。 
sessionInfo() 
R version 3.0.1 (2013-05-16) 
Platform: x86_64-apple-darwin10.8.0 (64-bit) 


locale: 
[1] en US.UTF-8/en US.UTF-8/en US.UTF-8/C/en US.UTF-8/en US.UTF-8 
attached base packages: 


[1] grid parallel stats graphics grDevices utils datasets methods base 


other attached packages: 


[1] GeneAnswers. 2.2.1 RColorBrewer. 1.0-5 Heatplus 2.6.0 MASS 7.3-29 XML, 3.95-0.2 
[6] RCurl, 1.95-4.1 bitops 1.0-6 igraph 0.6.5-2 Rgraphviz 2.4.1 — GOstats 2.26.0 
[11] graph 1.38.3 Category. 2.26.0 annaffy 1.32.0 KEGGdb 2.9.] | GO.db 2.9.0 
[16] hgu95av2.db 2.9.0 org.Hs.eg.db 2.9.0 RSQLite 0.11.4 DBI 0.2-7 annotate 1.38.0 
[21] hgu95av2probe 2.12.0 hgu95av2cdf 2.12.0 AnnotationDbi 1.22.6 CLL 1.2.14 gcrma, 2.32.0 
[26] affy 1.38.1 Biobase 2.20.1 BiocGenerics 0.6.0 limma 3.16.7 


loaded via a namespace (and not attached): 


[1] affyio 1.28.0 AnnotationForge 1.2.2  BiocInstaller 1.10.3  Biostrings 2.28.0 genefilter 1.42.0 
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[6] GSEABase_1.22.0 IRanges_1.18.3 preprocessCore_1.22.0RBGL_1.36.2 splines_3.0.1 
[11] stats4_3.0.1 survival_2.37-4 tools_3.0.1 xtable_1.7-1 zlibbioc_1.6.0 


5.5 芯片 处 理 实际 课 题 一 


5.5.1] 课题 背景 


机 器 学 习 是 一 门 多 领域 交叉 学 科 ， 通 过 研究 一 类 特殊 算法 ， 使 计算 机 程序 可 以 从 以 往 
的 经 验 中 不 断 学 习 ， 从 而 提升 其 在 处 理 特定 任务 “如 分 类 和 回归 ) 时 的 性 能 。 用 机 器 学 习 
方法 分 析 芯 片 数据 是 较 高 层次 的 统计 应 用 ， 其 最 常见 的 形式 就 是 两 类 样本 的 分 类 ， 如 癌症 
与 正常 。 传 统 的 机 器 学 习 主 要 是 单 任 务 学 习 ， 例 如 某 种 癌症 和 正常 样本 之 间 的 分 类 。 在 真 
实 世 界 中 ， 人 类 在 学 习 某 项 任务 时 ， 如 果 把 这 项 任务 和 多 个 相关 任务 一 起 学 习 ， 人 往往 会 取 
得 融会 贯通 的 效果 。 从 这 个 现象 得 到 的 启发 是 多 个 相关 任务 之 间 列 含 着 一 类 问题 的 共性 。 
为 了 利用 这 一 规律 ， 挖 掘 同类 任务 间 的 共有 信息 ， 提 高 数据 集 的 代表 性 ， 增 强 学 习 的 泛 化 
能 力 ， 研 究 人 员 提出 了 多 任务 学 习 的 概念 。 


A. " 
X | 癌症 共同 基因 
十 | 各 类 癌 基 因 的 交集 











图 5-24 多 任务 学 习 实 现 同时 分 类 


1997 年 ，R. Caruana 等 对 多 任务 学 习 研 究 的 成 果 发 表 于 Machine Learning， 标 志 着 多 任 
务 学 习 这 一 概念 的 正式 提出 踢 。Caruana 解决 多 任务 学 习 问 题 的 方法 基于 神经 网 络 。 作 为 一 
种 新 的 机 器 学 习 范 式 , 多 任务 学 习 引 起 了 机 器 学 习 领 域 研究 者 的 关注 , J. Baxter 等 的 研究 初 
步 解释 了 多 任务 学 习 为 何 有 效 请 鸭 。 除 了 理论 分 析 外 ， 研 究 者 们 还 对 多 任务 学 习 进 行 了 大 
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量 的 应 用 方法 研究 ， 出 现 了 基于 正则 化 中 1、 层次 贝 叶 斯 多、Logistic 回归 5 、 径 向 基 函 数 网 
络 59、 支 持 向 量 机 P 以 及 独立 成 分 分 析 B8I 等 技术 的 多 任务 学 习 方法 。 

虽然 癌症 具有 高 度 异 质 性 ， 细 胞 类 型 和 组 织 来 源 各 异 ， 但 所 有 癌症 的 发 病 机 制 具 有 共 
同 的 关键 特征 ， 因 此 生物 学 界 普 遍 认同 不 同 癌症 有 共同 的 发 病 机 制 。 多 年 来 ， 出 现 了 很 多 
基于 必 片 数据 寻找 癌症 共有 基因 (Common cancer genes) 的 研究 。 但 是 ， 由 于 以 前 的 方法 
都 采用 了 先 将 癌症 分 类 处 理 ， 然 后 寻找 各 癌症 基因 数据 集结 果 的 交集 的 方法 ， 这 种 先 分 解 
局 部 寻 优 再 综合 的 思想 ， 不 能 有 效 利用 各 数据 集 之 间 的 关联 信息 (图 5-24A)。 为 了 克服 
这 些 缺 点 ， 高 山 等 9 首次 采用 多 任务 学 习 方法 来 寻找 癌症 共有 基因 ， 试 图 通过 全 局 优化 的 
方法 , 确定 那些 能 够 将 正常 样本 和 各 种 癌症 样本 同时 区 分 开 的 最 为 显著 的 特征 (图 5-24B)， 
有 助 于 阅 明 癌症 发 生 的 共同 机 制 。 在 上 述 研究 过 程 中 ， 高 山 等 构建 了 两 种 基于 支持 向 量 机 
的 分 类 器 MTLS-SVMs 和 MT-Feat3, 用 MT-Feat3 分 类 器 从 22215 个 基因 (实际 上 是 探 针 组 ) 
中 选取 了 72 个 基因 (对 应 73 个 探 针 组 ) 作为 12 种 癌症 的 共有 基因 ， 并 采用 MTLS-SVMs 
分 类 器 在 男 一 组 测试 数据 上 验证 了 基因 选择 的 有 效 性 。 此 项 目 从 数据 获取 、 预 处 理 、 算 法 
实现 ， 一 直到 所 有 图 表 生 成 都 采用 了 R 和 Bioconductor 编程 ， 是 一 个 非常 典型 的 实例 ， 由 于 
多 任务 学 习 算 法 涉及 较 多 的 机 器 学 习 背 景 知识 ， 这 里 只 介绍 数据 获取 和 预 处 理 等 实现 过 程 。 


5.5.2. 数据 集 与 预 处 理 


本 研究 数据 来 自 Oncomine 癌症 基因 芯片 数据 库 (https://www.oncomine.org), 下 载 了 全 
部 Affymetrix U133 平台 (包括 U133 A&B 和 Plus 2.0 芯片 ) 的 实验 数据 共 53 个 数据 集 。 经 
过 三 个 条 件 的 严格 筛选 : 第 一 是 每 个 数据 集 必须 含 适当 比例 的 正 负 (癌症 和 正常 〉》 样 本 ; 
第 二 是 必须 有 原始 数据 提供 《有 一 个 除外 为 第 三 是 每 种 癌症 只 要 样本 总 数 最 多 的 一 个 数据 
集 。 最 后 得 到 12 个 数据 集 ( 总 共 497 个 样品 数据 ) 用 于 机 器 学 习 训练 C 5-35, 11 个 数 
据 集 用 于 检测 〈 这 部 分 请 参考 发 表 的 相关 论文 ) 1。 


表 5-3 12 个 癌症 数据 集 





1D 种 类 芯片 类 型 标准 化 (— (十 ) 
GSE15471 T n U133 Plus 2.0 RMA 39 39 
GSE5563 阴道 癌 U133 Plus 2.0 MAS5 10 9 
GSE3325 前 列 腺 癌 U133 Plus 2.0 MAS5 6 13 
GSE9844 头颈 癌 U133 Plus 2.0 RMA 12 26 
GSE5788 血 癌 U133A MASS 8 6 
GSE6344 肾 癌 U133A MASS 10 10 
GSE10072 肺癌 U133A RMA 49 58 
GSE13911 胃癌 U133 Plus 2.0 MAS5 31 38 
GSE1420 食道 癌 U133A MASS 8 16 
GSE25034 皮肤 癌 U133A ak 03 6 9 
GSE8671 结肠 癌 U133 Plus 2.0 MAS5 32 32 
GSE5764 乳腺 癌 U133 Plus 2.0 GCOS 20 10 


ik: “ID” 使 用 NCBI GEO 数据 库 ID, 


dk, "EP 没有 提供 原始 数据 。 


“H” ATEFA (AE) 个 数 ， 


“(-)”， 表示 负 样 本 (正常 ) 
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从 12 个 数据 集中 可 以 看 到 ， 它 们 的 标准 化 方法 共有 四 种 。 多 任务 学 习 并 不 要 求 所 有 的 
数据 集 都 是 用 同一 种 方法 来 进行 标准 化 的 ， 因 此 可 以 直接 使 用 标准 化 后 的 数据 集 来 进行 多 
任务 学 习 。 但 是 考虑 到 他 人 数据 处 理 可 能 产生 的 错误 或 者 未 说 明 详 细 的 步骤 ， 更 严谨 的 方 
法 是 从 原始 数据 (CEL 文件 ) 开始 ， 用 同一 种 算法 对 全 部 数据 进行 标准 化 。 根 据 结果 对 比 ， 
这 样 做 的 结果 确实 提高 了 多 任务 学 习 的 性 能 ， 这 里 不 再 细 究 提高 的 原因 。 本 课题 中 的 数据 
预 处 理 至 少 要 完成 以 下 任务 : 

CI) 提取 U133 Plus 2.0 和 U133A 两 类 芯片 共有 的 探 针 组 ID。 

QD FAX 11 个 数据 集 的 CEL 文件 ， 统 一 用 RMA 算法 预 处 理 。 

G) 对 于 没有 原始 数据 的 “GSE2503” 数 据 集 ， 表 达 值 要 转换 到 与 其 他 11 个 数据 集 可 
比 的 范围 。 


5.5.3. 民 程 序 与 代码 讲解 


例 5-18: 

# 安装 并 加 载 所 需 RO. 
source('http://Bioconductor.org/biocLite.R"); 
biocLite ("GEOquery") ; 

library (GEOquery); 

library (CLL); 

# 设置 当前 目录 。 
setwd("C:Nworkingdirectory"); 

# 读 入 UI33A 中 22215 个 共有 探 针 组 列表 。 
U133Acols<-read.table("U133Acols"); 

# 得 到 11 个 数据 集 的 ID 中 的 数字 。 
numbers-c(15471,5563,3325,9844,5788,6344,10072,13911,1420,8671,5764); 
8 得 到 11 个 数据 集 在 GEO 数据 库 中 的 ID。 
GEO_IDs=paste("GSE",numbers,sep = ""); 

# 得 到 11 个 数据 集 下 载 文件 的 后 缀 名。 
tars-paste(GEO IDs," RAW.tar",sep = ""); 

8 生成 一 个 空 变 量 ， 用 了 保存 数据 标准 化 后 的 结果 。 
trainX-c(); 

#11 次 循环 处 理 11 个 数据 集 。 

for(i in 1:length(GEO IDs)) 

{ 

# 得 到 下 载 数据 的 目标 路 径 十 名 称 。 
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GEO tar <- paste(GEO IDs[i],tars[i],sep = "/"); 

# 下 载 数 据 集 。 

getGEOSuppFiles(GEO-GEO JIDs[i],baseDir = getwd()); 
# 将 当前 数据 集中 的 所 有 样品 数据 解压 到 data 子 目 录 。 
untar(GEO tar, exdir-"data"); 

# 得 到 当前 数据 集中 的 所 有 样品 对 应 的 数据 文件 名 称 。 
cels <- list.files("data/", pattern = "[gz]"); 

# 解压 当前 数据 集中 的 所 有 样品 对 应 的 数据 文件 。 
sapply(paste("data", cels, sepz"/"), gunzip); 

# 得 到 data 子 目 录 的 全 路 径 。 

celpath <- paste(getwd(),"data",sep = "/"); 

# 转 到 data 子 目录 ， 同 时 保留 当前 目录 到 oldWD。 
oldWD <- setwd(celpath); 

# 读 取 当 前 目录 中 的 所 有 样品 对 应 的 CEL 文件 。 

raw data <- ReadAffy(); 

+ 回 到 工作 目录 。 

setwd(oldWD); 

# 删除 data 子 目录 中 全 部 文件 ， 否 则 下 次 循环 会 追加 写 。 
unlink("data", recursive=TRUE) ; 

# 用 RMA 算法 标准 化 数据 。 

rma, data <- rma(raw. data); 

# 得 到 基因 表达 矩阵 eset. 

eset «- exprs(rma data); 

# 基因 表达 矩阵 转 置 后 ， 选 择 需 要 的 列 。 
X<-t(eset)[,as.vector(t(U133Acols))]; 

# 提取 的 数据 集 不 断 按 行 向 后 追加 。 
trainX=rbind(trainX,x); 

} 

# 11 个 数据 集 处 理 完毕 ， 保 存 到 文件 trainX 中 。 


write.table (trainX, file = "trainX", sep = "\t",row.names = E,col.names = F) ; 


U133 Plus 2.0 & 54613 个 探 针 组 ，U133A 含有 22283 个 探 针 组 ， 它 们 共有 22215 个 
公共 探 针 组 ， 因 此 需要 编程 提取 这 个 22215 个 探 针 组 的 ID， 存 入 文件 “U133Acols”， 以 后 
的 所 有 数据 集 都 根据 这 个 公共 探 针 组 列表 提取 数据 ， 读 者 可 尝试 自行 编程 生成 这 个 文件 ， 
并 在 程序 运行 前 ， 放 入 工作 目录 “C:\workingdirectory”。 对 于 11 个 数据 集 的 CEL 文件 ， 
可 以 登录 到 NCBI 基因 表达 数据 库 (Gene expression omnibus, GEO) 网 站 下 载 。 但 是 如 果 
这 么 做 ， 那 说 明 读者 还 没有 真正 掌握 Biocondoctor 的 方法 和 思路 ，Biocondoctor 强调 从 数据 
获取 到 处 理 完 毕 的 一 气 呵 成 ( 见 例 5-18)。 例 5-18 运行 完毕 可 以 得 到 一 个 数据 文件 “trainX”， 
它 的 列 对 应 22215 个 探 针 组 ， 行 对 应 497 个 样品 ， 符 合 接 下 来 多 任务 学 习 需 要 的 输入 格式 。 
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例 5-18 中 ， 函 数 ReadAffy 可 以 一 次 性 读 入 当前 目录 下 的 所 有 样品 对 应 的 CEL 文件 ， 因 此 
需要 消耗 大 量 内 存 ， 如 果 遇 到 样品 数量 较 大 的 数据 集 (如 GSE15471)， 还 需 使 用 大 内 存 服 
务 器 运行 。 


例 5-19: 

# WAH RA. 

library (GEOquery); 

# 设置 当前 目录 。 
setwd("C:Nworkingdirectory"); 

# VEA UI33A 中 22215 个 共有 探 针 组 列表 。 
U133Acols<-read.table("U133Acols"); 

# 数据 集 GSE2503 的 基因 表达 数据 。 
gds«-getGEO(GEO = "GSE2503", destdir = getwd()); 
# 得 到 基因 表达 矩阵 eset. 

eset «- exprs(gds[[1]]); 

# 基因 表达 矩阵 转 置 后 ， 选 择 需 要 的 列 。 
X<-t(eset)[,as.vector(t(U133Acols))]; 

# 全 部 数据 转化 为 以 2 为 底 的 对 数 。 
trainX2«-log2(x) ; 

8 结果 保存 到 文件 trainX2 中 。 


write.table (trainX2, file = "trainX2",sep = "X",row.names = F,col.names = F) ; 


GSE2503 数据 集 由 于 无 法 获得 其 原始 的 CEL 文件 ， 只 能 转 而 获取 预 处 理 过 的 基因 表达 
矩阵。 前 面 11 个 数据 集 经 过 RMA 预 处 理 后 数据 普遍 分 布 在 〈2,15) 之 间 ， 而 GSE2503 数 
据 集 的 数据 分 布 范围 却 是 (0.6000, 7.1819e+005)， 很 明显 ， 该 数据 是 没有 经 过 对 数 化 的 ， 
因此 必须 通过 对 数 转换 ， 才 能 与 其 他 11 个 数据 具有 可 比 性 。 例 5-18 完成 了 从 数据 下 载 到 
预 处 理 的 全 部 过 程 , 处 理 后 的 数据 分 布 在 (-0.7370, 19.4540) 之 间 , 最 后 存 入 文件 “trainX2”， 
用 户 合并 文件 “trainX” 和 “trainX2” 就 可 以 得 到 全 部 训练 集 的 数据 ， 文 章 9 中 用 到 的 训练 
集 数据 就 是 这 么 得 来 的 。 


9.6 芯片 处 理 实际 课题 二 


5.6.1 课题 背景 


本 书 2.1.4 讲 到 过 miRNA 对 mRNA 的 调控 作用 ， 更 进一步 来 讲 ，miRNA 是 通过 结合 
到 mRNA 的 3* UTR 区 域 来 降解 mRNA 的 (图 5-250. HF miRNA 与 mRNA 的 结合 有 很 
强 的 规律 性 ， 可 以 根据 miRNA 与 mRNA 的 序列 信息 来 计算 它们 之 间 的 结合 关系 ， 从 而 判 
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定 哪 个 mRNA 是 miRNA R88 Ex. miRNA 与 mRNA 的 联合 研究 ， 会 分 别 从 miRNA 芯片 和 
mRNA 中 找到 差异 表达 基因 ， 通 过 预测 找到 miRNA BUE (EE mRNA)， 然 后 根据 “如 果 
miRNA 上 调 ， 其 对 应 靶 mRNA 应 该 下 调 ” 的 假设 ,从 男 一 个 角度 确认 miRNA 与 mRNA 的 
关系 。 由 于 联合 分 析 涉 及 较 多 的 生物 学 背景 ， 因 此 本 节 不 涉及 。 

本 节 举 例 只 涉及 预测 一 组 已 知 的 miRNA 〈 来 自 芯片 数据 的 差异 表达 分 析 ) 在 猪 转录 组 
上 的 靶 点 。 整 个 过 程 分 为 两 部 分 : 数据 预 处 理 和 miRNA 靶 点 预测 。 由 于 miRNA $85 P3 
使 用 的 是 程序 miRanda，R/bioconductor 编程 只 用 于 数据 预 处 理 。 


morr mm 
alpin mmm omm 
人 


me miRNA 


图 5-25 ”miRNA 与 mRNA 结 合 原 理 
5.6.2 数据 集 与 处 理 过 程 


靶 点 预测 程序 miRanda 需要 输入 两 种 数据 ， 除 了 已 知 的 miRNA 序列 〈 见 例 5-20)， 还 
需要 输入 猪 转 录 组 上 的 全 部 3'UTR 数据 ， 这 可 以 使 用 Bioconductor 的 biomaRt 包 从 公开 数 
据 库 中 获取 。 本 书 4.3.2 的 例 4-9 介绍 了 如 何 使 用 biomaRt 包 编 程 从 ensemble 数据 库 获得 猪 
转录 组 全 部 3 UTR 数据 〈 存 于 文件 “UTR3seqs-1.fa”) 的 过 程 。 这 里 例 5-21 通过 另外 一 种 
方式 获得 这 些 序列 〈 存 于 文件 “UTR3seqs-2.fa”)， 读 者 可 以 细心 对 比 两 者 之 间 的 异同 。 对 
生物 信息 有 兴趣 的 读者 ,可 以 到 网 站 http://www.microrna.org/microrna/getDownloads.do 下 载 
miRNA 靶 点 预测 软件 miranda, 根据 miRNA 序列 和 猪 转 录 组 上 3'UTR 序列 , 运行 “./miranda 
miRNA .fa UTR3seqs-1.fa -out resultl -quiet” 和 和 “./miranda miRNA .fa UTR3seqs-2.fa -out result2 
-quiet” 得 到 本 项 目的 最 终结 果 。 


5.6.3 民 程 序 与 代码 讲解 


例 5-20: 
# ner RA. 
library (Biostrings); 
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# 设置 当前 目录 。 

setwd("C:Nworkingdirectory"); 

# 从 文件 miRNA.tab i£ X miRNA 序列 ， 第 一 列 是 序列 ID， 第 二 列 是 序列 内 容 。 
datal«-read.table("miRNA.tab"); 

# 提取 序列 内 容 。 

seqs=as.character(datal[,2]); 

# 提取 序列 ID。 

names(seqs)=datall[,1]; 

# 用 生成 RNAStringSet 对 象 ， 保 存 为 fasta 格式 文件 。 
Biostrings:writeXStringSet(RNAStringSet(seqs, use.names=TRUE),"miRNA fa"); 


例 5-21: 

# Erud RE. 

library(biomaRt); 

library (Biostrings); 

# 选中 "ensembl" 数 据 库 。 

ensembl mart <- useMart(biomart-"ensemb!"); 

4 选中 "sscrofa" 数 据 集 。 

dataset pig «-useDataset(dataset-"sscrofa gene ensembl",mart- ensembl mart); 

# dataset pig 数据 集中 根据 affy porcine ID 和 description 信息 。 

idlist <- getBM(attributes-c("affy porcine","description"), mart-dataset pig); 

# 从 dataset. pig 数据 集中 根据 affy porcine ID 提取 序列 。 

seqs = getSequence(id=idlist["affy_porcine"], type-"affy porcine", seqType-"3utr", mart = 
dataset pig); 

# 去 除 没有 序列 内 容 的 数据 记录 。 

seqs = Seqs[!seqs[,1]=="Sequence unavailable",]; 

# 去 除 没 有 UTR 注释 的 数据 记录 。 

seqs = Seqs[!seqs[,1]=="No UTR is annotated for this transcript ,]; 

# 提取 序列 的 内 容 。 

x=seqs[,1]; 

# 提取 序列 的 ID. 

names(x)-seqs[.2]; 

# 结果 存 入 文件 "UTR3seqs-2.fa"， 格 式 为 fasta。 

write.XStringSet(DNAStringSet(x, use.names=TRUE),"UTR3seqs-2.fa"); 


对 比例 5-21 与 前 面 4.3.2 的 例 4-9， 可 以 看 到 前 者 根据 affy_porcine 芯片 的 探 针 组 ID， 
而 后 者 根据 ensembl_transcript_id 下 载 同 样 的 数据 。 读 者 对 比 后 ， 可 以 发 现 其 结果 确实 是 不 
同 的 , 不 同 的 原因 我 在 这 里 就 不 详细 介绍 了 。affy_porcine 芯片 的 所 有 探 针 组 ID 可 以 到 网 站 
http://www.affymetrix.com/support/technical/byproduct.affx?product=porcine FÆ, 根据 芯片 的 
所 有 ID 文件 “pig_affy_IDs” 读者 可 以 运行 例 5-22 程序 建立 ensembl 与 affy 的 两 种 ID 之 
间 的 映射 文件 ， 然 后 再 结合 两 个 数据 文件 "UTR3seqs-1.fa" 和 "UTR3seqs-2.fa"， 编 程 寻 找 它 
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们 之 间 不 同 的 原因 。 


例 5-22: 

# WAH E RE. 

library(biomaRt); 

library (Biostrings); 

pig_affy_IDs<- read.table("pig affy IDs"); 

pig affy IDs«- as.character (unlist(pig affy IDs)); 

# 列 出 "sscrofa" 数 据 集 的 所 有 特征 , 2 XIDÉ fS "ensembl transcript. id" AMl"affy porcine". 

id mapping <- getBM(attributes-c("ensembl transcript id","affy porcine"), filters = 
"affy porcine", values = pig affy IDs, mart-dataset pig); 

write.table (id mapping," emsembl-affy" ,sep-"Xt") 


5.7. 芯片 处 理 实际 课题 三 


5.7.1 课题 背景 


从 前 面 差异 表达 分 析 的 几 个 例子 中 ， 可 以 看 出 差异 表达 往往 需要 在 两 组 样本 中 进行 比 
较 ， 而 每 组 的 样品 个 数 一 般 都 大 于 3， 这 样 比较 的 结果 才能 估计 出 一 个 统计 性 的 指标 〈 如 了 
值 )。 但 是 有 些 芯 片 研究 ， 或 者 考虑 成 本 因素 ， 或 者 对 结果 要 求 不 严格 ， 采 用 每 组 一 个 样品 
做 差异 表达 分 析 ， 对 于 这 样 的 数据 ， 往 往 采 用 简单 的 倍数 变化 的 策略 选取 差异 表达 基因 。 


5.7.2 数据 集 与 处 理 过 程 


本 节 来 自 六 个 样品 〈 表 5-4)， 前 四 个 样品 来 自 HEK293 细胞 系 ， 考 虑 两 个 因素 对 基因 
表达 的 影响 : 一 个 是 敲 入 〈knock in) CD147 基因 及 其 阴性 ( 没 敲 入 ) 对 照 ; 另外 一 个 就 是 
单 层 (sphere) 和 悬浮 (monolayer) 两 种 不 同 的 细胞 培养 方式 。 后 两 个 样品 只 考虑 一 个 因素 
对 基因 表达 的 影响 ， 即 一 个 是 敲 低 (knock down) CD147 基因 及 其 阴性 〈 没 敲 低 ) 对 照 。 


表 5-4 六 个 样品 数据 的 介绍 





文件 样品 注释 

1.CEL HEK293_EGFP_monolayer 阴性 对 照 ， 悬 浮 培 养 
2.CEL HEK293 EGFP sphere 阴性 对 照 ， 单 层 培养 
3.CEL HEK293 CD147 monolayer 敲 入 CD147 基因 ， 悬 浮 培养 
4.CEL HEK293 CD147 sphere 敲 入 CD147 基因 ， 单 层 培养 
5.CEL MIAPaCa 2_NC 阴性 对 照 

6.CEL MIAPaCa 2 A6 RIE CD147 基因 


首先 ， 进 行 质量 控制 ， 然 后 ， 找 到 六 个 样品 间 五 种 对 比 之 间 的 差异 表达 基因 〈 表 5-5), 
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进行 注释 、GO 和 Pathway 分 析 ; 最 后 ， 在 前 四 个 样品 的 四 种 对 比 的 基础 上 ， 考 虑 两 种 因素 
的 影响 ， 找 到 对 比 1 和 4 之 间 、 对 比 2 和 3 之 间 共 同 的 差异 表达 基因 ， 并 对 两 组 共同 表达 
基因 做 注释 、GO 和 Pathway 分 析 。 


表 5-5 五 种 对 比 的 介绍 


编号 差异 表达 目的 
1 HEK293_EGFP_monolayer vs HEK293 EGFP. sphere 细胞 培养 方式 的 影响 
2 HEK293 EGFP monolayer vs HEK293 CD147 monolayer 基因 敲 入 的 影响 
3 HEK293 EGFP sphere vs HEK293 CD147 sphere Ji ARA EIS] 2] 
4 HEK293  CD147 monolayer vs HEK293 CD147. sphere 细胞 培养 方式 的 影响 
5 MIAPaCa 2. NC vs MIAPaCa 2. A6 ESSA E 


质量 分 析 部 分 包括 : 根据 原始 数据 (CEL 文件 ) 中 PM 探 针 数据 产生 的 信号 强度 分 布 
图 (图 5-26A) 和 NUSE 箱 线 图 (图 片 未 提供 );， 根据 原始 数据 《〈CEL 文件 ) 中 全 部 探 针 
数据 产生 了 RNA 降解 曲线 (图 $-26B); 根据 RMA 预 处 理 后 的 数据 又 产生 了 PCA 图 (图 
5-27)。 如 何 编程 绘制 这 几 张 图 在 前 面 内 容 中 都 有 详细 描述 ， 读 者 可 尝试 自行 编程 产生 这 些 
图 片 ， 这 里 不 再 提供 R 代码 。 从 图 5-26A 中 可 以 看 出 ， 六 个 样品 的 数据 保持 了 同样 形状 的 
分 布 ， 因 此 总 体 上 是 好 的 ; 图 5-26B 总 体 上 没有 过 于 平 直 的 曲线 ， 因 此 基本 上 降解 不 大 ， 
可 以 接受 。 但 是 样品 1 和 3 与 其 他 样品 间 有 一 定 差异 ， 会 引入 一 些 与 对 比 目 的 无 关 的 差异 
表达 基因 ， 例 如 样品 1 与 2 对 比 中 ， 我们 希望 只 考虑 敲 入 CD147 基因 带 来 的 影响 ， 而 尽量 
排除 其 他 因素 的 影响 ， 而 样品 2 比 样品 1 降解 严重 这 个 因素 会 对 结果 产生 影响 。 特 别 是 在 
只 有 一 个 样本 的 情况 下 ， 这 个 因素 的 影响 无 法 通过 统计 方法 排除 。 结 合 NUSE 箱 线 图 进 一 
步 分 析 时 ， 发现 所 有 样品 的 中 心 值 都 非常 接近 1， 没 有 任何 特别 不 一 样 的 样品 出 现 ， 因 此 认 
为 降解 差异 在 可 以 容许 的 范围 内 。 上 述 问 题 可 以 通过 PCA 图 进一步 解释 : 从 图 5-27 中 ， 
可 以 看 出 主 成 分 一 (PC1) 可 以 把 样品 5 和 6 与 其 他 样品 远 远 分 开 ， 可 以 解释 为 它们 来 自 不 
同 细胞 系 ， 从 主 成 分 二 (PC2) 来 看 样品 1 和 3 与 样品 2 和 4 差异 很 大 ， 这 里 有 两 种 可 能 ， 
或 者 是 细胞 培养 方式 带 来 的 差异 远 远大 于 敲 入 CD147 基因 带 来 的 差异 ， 或 者 是 样品 2 和 4 
降解 带 来 的 差异 成 为 主要 因素 (图 5-268). 
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图 5-27 六 个 样品 的 PCA 图 


5.7.3 民 程 序 与 代码 讲解 


例 5-23: 

# WRAT RE. 

library(affycoretools); 

library(genefilter); 

library(annotate); 

library(GOstats); 

# 读 入 所 有 CEL 文件 。 

rawData <- read.affybatch(filenames-list.celfiles()); 
# 检查 是 否 读 入 所 有 文件 。 
sampleNames(rawData); 

# 使 用 RMA 算法 预 处 理 所 有 数据 。 

eset «- rma(rawData); 

# 获得 基因 芯片 注释 包 名 称 。 

annoPackage <- paste(annotation(eset), ".db", sepz""); 
# 安装 并 加 载 所 需 对 应 的 基因 芯片 注释 包 。 
source("http://Bioconductor.org/biocLite.R"); 
biocLite(annoPackage); 

library(annoPackage, character.only = TRUE); 

# 取出 所 有 探 针 组 的 Affymetrix ID. 

affy IDs <- featureNames(eset); 
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# 取出 数据 集 的 注释 信息 。 

an <- annotation(eset); 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 Gene Symbol。 

symbols <- as.character(unlist(mget(affy_IDs,get(paste(an, "SYMBOL", sep=""))))); 

# 所 有 "NA", 转 换 成 ""。 

symbols[is.na(symbols)] «- ""; 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 Gene Name. 

gene names <- as.character(unlist(mget(affy IDs,get(paste(an,"GENENAME'", sepz""))))); 

# 所 有 "NA", 转 换 成 ""。 

gene_names[is.na(gene_names)] <- 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 Entrez ID。 

entrez <- unlist(mget(affy IDs, get(paste(an, "ENTREZID", sepz"")))); 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 UNIGENE ID. 

unigenes«-as.character(unlist(lapply(mget(affy IDs,get(paste(an, UNIGENE'" sep-""))),paste, 
collapsez"//"))); 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 RefseqID。 

refseqs«-as.character(unlist(lapply(mget(affy IDs, get(paste(an, "REFSEQ", sepz""))),paste, 
collapsez"//"))); 

# AJEAK AKERE, MEERE RARE ID， 按 注释 顺序 对 应 到 探 针 组 中 。 


out<-data.frame(ProbeID=affy_IDs,Symbol=symbols,Name=gene_names,EntrezGene=entrez, 


"n, 
3 


UniGene=unigenes,RefSeq=refseqs, exprs(eset), StringSAsFactors=FALSE); 

row.names(out) <- 1:length(affy IDs); 

# 将 带 注释 的 数据 基因 表达 矩阵 输出 。 

write.table(out, "Expression table.xls", sep='\t',row.names=F); 

# 六 个 样品 的 名 称 。 

samples«-c(HEK293 EGFP monolayer; HEK293 EGFP. sphere, HEK293 CD147_monolayer， 
'HEK293 CD147 sphere','MIAPaCa 2 NC','MIAPaCa 2 A65; 

# 五 组 对 比 的 名 称 。 

compNames = paste(samples[c(1,1,2,3,5) ],samples[c(2,3,4,4,6)],sep-' vs "); 

# 设计 一 个 过 滤 准 则 ， 要 求 每 个 基因 在 六 个 样品 中 至 少 表达 一 次 。 

fltl <- kOverA(1,6); 

# 五 组 对 比 中 log2Fold 超过 1 倍 的 基因 算 作 差异 表达 基因 ， 输 出 到 五 个 不 同 的 文件 。 

out<-foldFilt(eset,fold=1,groups=1:6,comps=list(c(1,2),c(1,3),c(2,4),c(3,4),c(5,6)),compNames, 
text=T,html=F,save=T,filterfun=flt1); 


例 5-23 主要 完成 从 六 个 CEL 文件 中 提取 六 个 样品 的 基因 (实际 上 是 探 针 组 ) 表 达 和 矩阵 ， 
注释 所 有 的 基因 ， 并 选取 五 组 对 比 中 的 差异 表达 基因 〈 见 表 5-3)。 整 个 程序 包括 两 次 输出 : 
第 一 次 输出 输出 的 是 基因 表达 和 矩阵 《包括 其 他 数据 库 的 注释 )， 存 于 文件 
Expression_table.xls; 第 二 次 根据 五 次 对 比 ， 输 出 五 个 独立 的 文件 ， 存 放 每 次 对 比 的 差异 表 
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达 基 因 。 差 异 表 达 基 因 的 输出 文件 的 名 称 来 自 表 5-3 中 第 2 列 ， 它 还 包括 了 每 个 差异 表达 
基因 (实际 上 是 探 针 组 ) 的 GO 和 Pathway 注释 信息 ， 值 得 注意 的 是 ， 其 中 有 一 列 倍数 变化 
(Fold Change) 实际 上 应 该 是 以 2 为 底 对 数 化 后 的 倍数 ， 由 于 RMA 算法 得 到 的 是 已 经 对 数 
化 的 数值 ， 因 此 整个 倍数 变化 ， 实 际 上 就 是 两 个 对 比 样品 表达 值 之 差 。 


例 5-24: 

# GO 的 三 个 领域 ， 这 里 三 个 领域 分 开 注释 。 

go. domains <- c('BP','CC','MF'); 

# 提取 所 有 探 针 组 对 应 的 GO 信息 ， 没 有 GO 注释 的 记录 为 FALSE. 

no_go <- sapply(mget(affy_IDs, hgul33plus2GO), function(x) if(length(x) == 1 && 
is.na(x))TRUE else FALSE); 

+ 提取 所 有 有 GO 注释 的 探 针 组 。 

affy IDs <- affy IDs[!no go]; 

# 提取 所 有 探 针 组 对 应 的 "EntrezGene"， 并 去 除 重 复 记 录 。 

all probes <- unique(getEG(affy IDs, "hgu133plus2")); 

# 提取 对 比 1 和 对 比 4 之 间 ， 对 比 2 和 对 比 3 之 间 的 差异 表达 探 针 组 ， 以 及 对 比 5 的 
差异 表达 探 针 组 。 

sig probes.temp <- list(names(which(abs(out[[2]][,1]) 2-1 & abs(out[[2]][,4])==1)), 

names(which(abs(out[[2]][,2]) 2-21 & abs(out[[2]][,3])2-1)), 
names(which(abs(out[[2]][,5])221))); 

8 定义 结果 文件 的 名 称 。 

fnames <- c('common probesets for monolayer vs sphere','common probesets for EGFP vs 
CD147', MIAPaCa 2 NC vs MIAPaCa 2 A6); 

8 每 次 循环 处 理 一 次 超 几何 检验 ， 来 根据 差异 表达 基因 做 GO 的 富 集 。 

for(i in 1:3)( 

sig probes-unique(getEG(sig probes.temp[[i]][sig probes.temp[[i]]?6in9oaffy IDs], 
"hgu133plus2")); 

for(j in 1:3)( 

8 设 定 超 几何 检验 参数 。 

params-new("GOHyperGParams",genelds-sig probes,universeGenelds-all probes,conditional 
= TRUE,annotation = annotation(eset), ontology = go domains[j],pvalueCutoff-.01); 

# 超 几何 检验 。 

hypt = hyperGTest(params); 

# 输出 html 格式 的 报告 文件 。 

htmlReport(hypt, digits=8, file-paste(fnames[i],' ,go_domains[j],.html',sep='")); 

} 

} 

例 5-24 主要 完成 找到 对 比 1 和 4 之 间 、 对 比 2 和 3 之 间 共 同 的 差异 表达 基因 ， 对 比 5 
的 差异 表达 基因 , 并 对 三 组 差异 表达 基因 做 注释 和 GO 富 集 分 析 。 每 组 数据 输出 三 个 HTML 
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格式 的 报告 文件 ， 分 别 对 应 GO 三 个 领域 的 富 集 分 析 的 结果 ， 该 文件 内 容 请 看 例 5-15 有 详 
细 介 绍 。 由 于 Pathway 分 析 ， 特别 是 Pathway 的 显示 要 占用 较 大 内 存 资源 ， 必 须 在 Linux 服 
务 器 上 运行 ， 考 虑 到 很 多 初学 者 使 用 的 是 Windows 系统 ， 这 里 不 再 提供 这 部 分 程序 代码 。 
另外 , 对 于 对 比 得 到 的 差异 表达 基因 , 本 研究 也 使 用 了 一 个 医学 领域 最 常用 的 IPA CIngenuity 
pathways analysis system) 软件 进行 了 下 游 分 析 《〈 功 能 注释 、 通 路 和 网 络 )， 对 生物 信息 有 兴 
趣 的 读者 可 以 尝试 一 下 。 
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本 书 2.3 讲 到 了 基因 表达 数据 主要 来 自 基因 忆 片 和 RNA-seq， 前 者 可 以 说 是 
Bioconductor 的 起 源 ， 因 此 在 第 五 章 详细 讲解 ， 而 RNA-seq 是 当前 基因 表达 分 析 的 热点 技 
术 ， 其 发 展 迅 速 ， 大 有 取代 基因 芯片 之 势 ， 因 此 在 第 六 章 详 细 讲 解 。 由 于 RNA-seq 涉及 新 
的 知识 点 较 多 ， 为 了 避免 讲解 空洞 ， 本 章 用 一 个 已 发 表 的 实际 课题 来 贯穿 整个 章节 ， 使 读 
者 更 准确 地 掌握 RNA-seq 数据 处 理 方 面 的 知识 。 

本 章 学 习 之 前 ， 读 者 需要 仔细 阅读 本 书 2.2 和 2.3， 并 详细 了 解 高 通 量 测序 和 基因 表达 
分 析 两 部 分 内 容 。 本 章 内 容 安排 ; 6.1 首先 介绍 示例 课题 ; 6.2 介绍 高 通 量 测序 基础 知识 ; 
6.3 分 析 了 RNA-seq 技术 的 特点 ; 6.4 是 RNA-seq 数据 预 处 理 ， 重 点 在 质量 控制 ，6.5 是 
RNA-seq 数据 分 析 , 重点 在 基因 表达 差异 的 显著 性 分 析 。 由 于 lumina 测序 仪 在 第 二 代 测 序 
技术 中 的 压倒 性 优势 ， 本 章 乃 至 本 书 所 有 举例 将 集中 于 Ilumina 测序 仪 。 


6.1 示例 课题 介绍 


6.1.1 课题 背景 


菊花 (学 名 Chrysanthemum morifolium)， 多 年 生 菊 属 菊 科 草本 植物 ， 是 经 长 期 人 工 选 
择 培育 的 名 贵 观赏 花卉 ， 其 品种 达 3000 余 种 。 菊 花 是 一 种 多 来 源 的 ， 通 过 长 期 的 定向 人 工 
选择 主要 是 取 其 观赏 价值 的 杂种 混合 体 ， 其 染色 体 是 4 倍 体 (2n 二 4X ==36) 或 6 倍 体 
(2n—6X 二 54)， 菊 花 基 因 组 估计 有 9.6 Gb， 但 是 目前 还 没有 测序 。 研 究 表 明 ， 干 旱 是 导致 
菊花 减产 的 主要 原因 。 徐 彦 杰 和 高 山 等 上 利用 高 通 量 转 录 组 测序 (RNA-seq)， 鉴 定 了 一 组 
菊花 脱水 胁迫 下 差异 表达 的 基因 ， 并 结合 基因 本 体 论 和 代谢 通路 等 分 析 ， 为 进一步 研究 菊 
花 的 抗旱 机 制 提 供 了 线索 。 


6.1.2 数据 集 和 处 理 过 程 


处 理 组 和 对 照 组 两 组 样品 各 有 三 次 生物 学 重复 ， 一 组 样品 经 过 脱水 处 理 3 小 时 ， 另 外 
一 组 样品 作为 对 照 不 经 过 任何 处 理 。 每 个 样品 分 别 进行 100 bp 和 51 bp 单 端 链 特异 性 
CStrand-specific) 测序 。 最 后 ， 处 理 组 得 到 100 bp 数据 3 个 〈T1、T2 和 T3) 和 51 bp 数据 
3 个 (Tl-1、T2-1 和 T3-1) ; 对 照 组 得 到 100 bp 数据 3 个 (CK1、CK2 和 CK3) 和 51 bp 
数据 3 个 (CK1-1、CK2-1 和 CK3-1)。51 bp 的 数据 与 100 bp 数据 一 一 对 应 ， 可 以 看 作 同 一 
个 样品 的 两 次 技术 重复 。 所 有 原始 数据 (Raw data) 以 Fastq 格式 文件 提交 到 NCBI SRA 
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(Sequence Read Archive) 数据 库 ， 数 据 集 编号 SRA091277， 每 个 数据 都 有 自己 的 RUN 编号 
CK 6-1)。 还 可 以 登录 网 站 (http:Wwww.icugi.org/chrysanthemum ) 下 载 转录 组 数据 和 相关 的 
分 析 结果 。 原 始 数据 获取 、 数 据 清 和 理 、 质 量 控 制 、 转 录 组 拼接 、 转 录 本 定 景 、 标 准 化 和 表 
达 差 噶 分 析 等 过 程 将 在 下 文 分 别 详细 介绍 。 


表 6-1 菊花 转录 组 样品 





样品 名 称 样品 描述 RUN 编号 测序 长 度 
Ti 处 理 组 〈 脱 水 处 理 3 小 时 》 SRR921340 100 bp 
T2 处 理 组 (脱水 处 理 3 小 时 ) SRR921341 100 bp 
T3 处 理 组 (脱水 处 理 3 小 时 ) SRR921342 100 bp 

T1-1 处 理 组 (脱水 处 理 3 小时) SRR921346 51 bp 
T2-1 处 理 组 (脱水 处 理 3 小 时 ) SRR921344 51 bp 
T3-1 处 理 组 (脱水 处 理 3 小 时 ) SRR921345 51 bp 
CK1 对 照 组 (不 做 任何 处 理 ) SRR921321 100bp 
CK2 对 照 组 〈 不 做 任何 处 理 ) SRR921322 100 bp 
CK3 对 照 组 〈 不 做 任何 处 理 ) SRR921324 100bp 
CK1-1 对 照 组 (不 做 任何 处 理 ) SRR921336 51 bp 
CK2-1 对 照 组 (不 做 任何 处 理 ) SRR921337 51 bp 
CK3-1 对 照 组 〈 不 做 任何 处 理 ) SRR921338 51 bp 


6.2 高 通 量 测序 基础 知识 


6.2.1 高 通 量 测 序 原 理 


本 书 2.2 简单 介绍 了 测序 和 第 二 代 ( 高 通 量 ) 测序 ， 以 及 基于 第 二 代 测 序 而 建立 起 来 的 
基因 组 测序 、RNA-seq 和 small RNA-seq 等 应 用 。 这 些 应 用 都 由 样品 收集 、 文 库 制 备 和 测 
序 三 个 过 程 组 成 , 不 同 之 处 在 于 样品 收集 和 文库 制备 。 图 6-1 是 制备 一 个 链 特异 性 RNA-seq 
文库 的 基本 步骤 叫 。 链 特异 性 建 库 后 再 测序 , 简称 链 特异 性 测序 , 可 以 确定 转录 本 来 自 DNA 
的 哪 条 链 ， 以 便 更 加 准确 地 获得 基因 的 结构 以 及 基因 表达 信息 。 而 且 还 可 以 发 现 诸 如 重 霉 
基因 (Overlap gene) 和 反 义 基因 (Antisense gene) 等 重要 的 生命 现象 。Levin 等 中 在 比较 分 
析 当 前 主要 的 几 类 链 特 异性 测序 方法 后 ， 推 荐 了 dUTP 链 特 异性 测序 方法 。 图 6-1 中 即 是 
费 章 军 等 中 提出 的 一 种 dUTP 链 特异 性 测序 方法 , 它 的 特点 是 廉价 高 效 ， 且 经 过 了 几 百 次 以 
上 试验 的 测试 。 
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图 6-1 RNA-seq 文 库 制备 过 程 ( 见 彩 图 ) 


第 二 代 测 序 仪 CIllumina) 要 测 的 序列 ， 无 论 是 来 自 DNA-seq 文库 还 是 RNA-seq 文库 ， 
自 左 向 右 依次 分 为 3 个 区 : 5 BE (Adapter) 区 、 目 标 序列 区 〈 见 图 6-2 黄色 区 域 ) 和 3? 
接头 〈Adapter) 区 。 对 于 多 个 样品 在 一 个 泳 道 (Lane) 中 同时 测序 的 情况 ， 可 以 使 用 多 样 
品 (Multiplex) 技术 ， 具 体 来 说 就 是 每 个 样品 分 配给 一 个 不 重复 的 条 形 码 (Barcode)， 实 际 
上 是 一 个 6 到 8 位 的 DNA 序列 , 测序 后 , 用 这 个 条 形 码 可 将 不 同样 品 分 开 。 图 6-2 中 ,“S1” 
序列 是 正 向 测序 的 引物 ， 下 一 个 残 基 对 应 正 向 测序 得 到 的 序列 的 第 一 个 位 置 ;“S2” 序 列 是 
反 向 测序 的 引物 ， 下 一 个 残 基 对 应 反 向 测序 得 到 的 序列 的 第 一 个 位 置 。 单 端 (Single end) 
测序 指 的 是 仅 从 “S1” 开 始 测 ; 双 端 (Paired end) 测序 指 的 是 先 从 “S1” 开 始 测 ， 再 从 “S2” 
开始 测 ; Barcode 是 根据 引物 “Sb” 独 立 测序 得 到 的 。 理 论 上 ， 由 于 制备 的 RNA-seq 文库 插 
入 长 度 COnsert length). 的 峰值 常常 是 200 bp 或 300 bp， 测 序 应 该 只 得 到 文库 中 目标 序列 从 
5' 端 开 始 的 部 分 片段 。 但 是 文库 中 会 有 少量 目标 序列 不 到 测序 长 度 〈 如 100 bp)， 对 于 这 些 
序列 ， 测 序 可 能 会 测 到 3” 端 接头 序列 ， 这 就 是 所 谓 的 接头 污染 。 数 据 预 处 理 时 ， 如 果 发 现 
接头 序列 过 多 ， 一 般 是 RNA-seq 文库 插入 长 度 没 有 控制 好 ; 如 果 出 现 大 量 全 长 的 3 接头 ， 
一 般 是 接头 过 量 ， 导 致 了 大 量 接头 自 连 〈Self ligation). 





SL: 正 向 测序 引物 ，S2: 反 向 测序 引物 ，Sb: Barcode 测 序 引 物 


图 6-2 ” 待 测序 列 的 结构 ( 见 彩 图 ) 
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Illumine 2000 测序 仪 中 ， 一 次 运行 (Run) 可 以 使 用 2 Aiia (Flow cell)， 每 个 流 
动 槽 包括 8 个 泳 道 (Lane)， 一 个 泳 道 包含 2 个 面 (Surface)， 每 个 面 还 有 3 个 条 (Swath) 
也 叫 列 〈Column)， 每 一 列 由 16 个 小 区 (Tie) 组 成 ， 后 者 又 由 大 量 DNA $ (Cluster) 
组 成 。Ilumine 2000 测序 仪 每 次 运行 〈 单 端 测序 ) 理论 上 可 以 产生 大 约 3 000 000 000 个 
DNA $k, FA DNA 艇 理论 上 可 以 产生 一 条 读 段 (Read)， 如 果 测 序 长 度 是 100 bp， 一 次 
运行 就 可 以 得 到 3G 个 读 段 , 其 原始 数据 量 为 300G AP dk; 如 果 是 双 端 测序 ， 可 以 得 到 2 
倍 的 原始 数据 量 (600G)， 测 序 时 间 大 概 是 11 天 。 但 是 由 于 实际 测序 过 程 中 产生 的 DNA 
簇 的 分 布 不 是 均匀 的 ， 技 术 人 员 会 控制 文库 的 上 样 量 来 适量 减少 反应 生成 的 DNA S. A 
便 得 到 清晰 可 辨 的 荧光 点 来 确保 测序 读 段 的 质量 ,目前 ,Illumine 2000 测 序 读 长 达到 100 bp 
时 ，80% 以 上 的 碱 基 可 以 达到 Q30 质量 指标 〈 见 6.2.2); 测序 读 长 50 bp 时 ，Q30 可 以 达 
到 85%。 实 际 应 用 中 (例如 估计 测序 深度 ) 使 用 更 多 的 是 达到 质量 标准 的 有 效 数 据 量 ， 而 
不 是 原始 数据 量 。RNA-seq 有 效 数 据 比 例 过 低 时 《如 Q20 低 于 60% 时 )， 无 法 检测 一 些 低 
丰 度 的 转录 本 ， 要 考虑 重新 测序 。 

测序 深度 (Sequencing depth) ， 也 叫 乘 数 ， 指 每 个 碱 基 被 测序 的 平均 次 数 ， 是 用 来 衡量 
测序 量 的 首要 参数 。 测 序 覆 盖 度 (Coverage) ， 也 叫 覆 盖 率 ， 指 被 测序 到 的 碱 基 占 全 基因 组 
大 小 的 比率 。 假 如 用 lumine 2000 测序 仪 完成 一 次 人 类 基因 组 〈3G 大 小 ) 单 端 测序 ， 即 
可 得 到 300G 数据 (假设 全 部 是 有 效 数据 )， 估 计 的 测序 深度 即 为 100 倍 (300G/3G) . % 
见 表示 为 100X。 将 所 有 读 段 比 对 到 人 类 基因 组 ， 如果 发 现 只 有 2.7G 的 碱 基 至 少 有 1 个 读 
段 覆 盖 到 ， 其 实际 测序 深度 即 为 111X(300G/2.7G), WFA S (Coverage) 为 90% 
(2.7G/3G)。 测 序 深度 在 某 些 文章 中 也 称 作 Coverage 或 Coverage depth, ifi zi BE t n] UJ 
称 作 Coverage ratio， 测 序 深度 和 禾 盖 度 不 是 一 个 概念 。 

不 同 的 测序 目的 要 使 用 不 同 的 测序 策略 。 如 DNA. 组 装 使 用 较 多 的 是 2X 100 bp RE 
长 的 双 端 测序 ;RNA-seq 使 用 较 多 的 是 100 bp 或 更 长 的 单 端 链 特异 性 测序 ; small RNA-seq 
多 用 50 bp 单 端 测序 。small RNA-seq 理论 上 可 以 和 RNA-seq 一 起 测 , 但 是 Small RNA 比 
JA. PCR 扩 增 倍数 多 ， 占 用 了 很 多 本 该 属于 mRNA 测序 的 资源 ， 而 它们 本 身 又 用 不 完 
50 bp 以 上 的 读 长 ， 会 造成 很 大 浪费 。 

从 测序 得 到 的 读 段 组 装 成 目标 基因 组 或 者 转录 组 的 基本 策略 是 比 对 和 拼接 , 前 者 是 把 
读 段 定 位 到 参考 基因 组 或 者 转录 组 上 , 然后 再 拼接 成 连续 序列 ; 后 者 也 叫做 从 头 组 装 (De 
novo assembly)， 是 在 没有 参考 基因 组 或 者 转录 组 前 提 下 ， 根 据 读 段 之 间 的 重 琶 区 ， 把 所 
有 读 段 拼接 起 来 , 直接 获得 基因 组 或 者 转录 组 。 转 录 组 比 对 常用 的 软件 有 BWA, Bowtie 
和 Tophat; 拼接 常用 的 软件 是 Trinity. K 6-3 是 两 种 组 装 策略 的 原理 示意 图 站。 
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图 6-3 ”转录 组 的 比 对 和 拼接 


基因 组 和 转录 组 从 头 组 装 的 不 同 点 在 于 : 基因 组 组 装 希望 尽量 获得 唯一 或 者 较 少 的 组 
装 结果 ， 即 一 致 性 序列 〈Consensus sequence)。 一 致 性 序列 上 并 不 是 每 个 位 点 都 只 有 一 种 碱 
基 ， 它 实际 上 只 代表 该 位 点 出 现 频率 最 高 的 碱 基 ， 有 两 种 以 上 碱 基 的 位 点 叫做 杂 合 位 点 。 
转录 组 组 装 要 在 获取 一 致 性 序列 的 同时 尽量 保持 序列 的 多 样 性 信息 ， 过 分 地 追求 一 致 性 会 
导致 过 拼接 ， 即 来 自 不 同 基因 的 相似 序列 〈 如 同 源 基因 ) 被 误 拼 接 到 一 起 。 基 因 组 和 转录 
组 组 装 可 以 用 一 个 非常 重要 的 指标 N50 来 评价 ， 即 将 所 有 组 装 后 的 序列 按照 长 度 从 大 到 小 
排列 ， 累 加 值 接近 所 有 序列 长 度 总 和 一 半 时 的 那个 位 置 对 应 的 序列 长 度 。N50 越 大 ， 组 装 
的 结果 越 好 ， 类 似 的 指标 还 有 N90. 

外 显 子 组 测序 CExome-seq) 和 转录 组 测序 都 可 以 对 基因 组 上 的 蛋白 质 编码 区 域 进行 测 
序 ， 但 是 两 者 还 是 有 很 多 不 同 。 外 目标 区 域 不 同 。 外 显 子 组 测序 只 能 检测 基因 组 上 的 已 知 
编码 区 (有 注释 的 ) 而 不 能 检测 未 知 编码 区 或 者 非 编码 区 ; 而 转录 组 测序 不 仅 能 检测 所 有 
编码 区 , 还 能 检测 非 编码 RNA 等 其 他 信息 .样本 处 理 手段 不 同 。 外 显 子 组 测序 需要 用 DNA 
捕获 技术 来 富 集 目标 区 域 的 序列 ; 而 转录 组 测序 需要 提取 总 RNA 后 富 集 mRNA。@ 分 析 手 
段 不 同 。 外 显 子 组 测序 只 需 将 测序 数据 比 对 到 基因 组 上 ; 而 转录 组 测序 既 可 以 进行 比 对 ， 
也 可 以 进行 从 头 拼接 。@ 获 得 的 信息 不 同 。 外 显 子 组 测序 一 般 侧重 获取 序列 的 点 突变 或 小 
片段 变异 信息 ; 而 转录 组 测序 可 以 获取 更 大 区 域 的 变异 信息 ， 如 mRNA 的 可 变 剪 切 等 。 
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6.2.2 测序 的 质量 分 数 


(1) Phred 分 数 


测序 中 ， 常 用 错误 概率 P。(Error probability) 来 表示 每 个 核 苷 酸 测量 的 准确 性 ， 还 可 以 
赋予 一 个 数值 来 更 简便 地 表示 这 个 意思 ， 这 个 数值 就 叫做 测序 质量 分 数 (Quality score)。 由 
于 这 个 分 数 最 开始 是 通过 Phred 软件 从 测序 仪 生 成 的 色谱 图 中 得 到 的 , 所 以 也 叫做 Phred 分 
数 CQrhred)o Phred 分 数 可 以 根据 下 面 公式 6-1 从 P。 中 求 得 。 Phred 分 数 的 取 值 范围 是 0 到 
93， 可 以 表示 很 宽 的 误差 范围 ， 即 从 1〈 完 全 错误 ) 到 非常 低 的 错误 率 10 7. Phred 分 数 
是 最 基本 的 质量 分 数 ， 其 他 的 质量 计 分 标准 都 来 自 于 Phred 分 数 〈 表 6-2). 


Qi 7 —10 Xl1ogioP. 公式 6-1 


表 6-2 ”质量 分 数 与 碱 基 错误 概率 的 关系 


Qphred P. Base call accuracy 
0 1 0 

10 0.1 0.9 

20 0.01 0.99 

30 0.001 0.999 

40 0.0001 0.9999 

50 0.00001 0.99999 


(2) Sanger 分 数 (Phred+33) 


由 于 Phred 分 数 包括 2 位 数字 ， 还 需要 用 空格 分 隔 ， 既 不 方便 阅读 ， 又 要 占用 大 量 存储 
空间 , 因此 在 实际 文件 中 不 采用 Phred 分 数 来 表示 数据 的 质量 。 为 了 在 文件 中 方便 地 表示 质 
量 , 常常 将 Phred 分 数 加 上 33, 并 用 其 ASCI 码 值 对 应 的 字符 表示 , 这 就 是 Sanger 分 数 (Sanger 
score). Sanger 分 数 从 33 到 126 对 应 Phred 分 数 从 0 到 93， 其 ASCII 码 值 对 应 的 字符 正好 
覆盖 了 可 打印 区 , 并 跳 过 了 空格 CASCII 83 32). Sanger 分 数 常用 于 FASTQ 格式 的 文件 ( 见 
6.2.3). 


(3) Illumina/Solexa 分 数 (Phred+64) 


2004 年 ，Solexa 测序 仪 定义 了 自己 的 质量 分 数 ， 并 成 为 了 另外 一 种 FASTQ 文件 常用 分 
数 ， 它 与 Phred 分 数 之 间 的 转换 关系 见 下 面 几 个 公式 : 





P. 
Q iex E E Lselogg C. p ) 公式 6-2 
Qsuea = 10xlogio (102P m 1) 公式 6-3 


Q4 710xlog,, (1099? +1) 公式 6-4 


第 六 章  Bioconductor 分 析 RNA-seq 数据 163 四 


Solexa 分 数 的 取 值 范围 是 -5 到 62， 它 在 FASTQ 文件 中 ， 需 要 加 上 64， 并 转换 为 相应 
ASCI 码 值 (59 到 1260 对 应 的 字符 来 表示 质量 K 6-3 中 第 2 行 ) 2006 4E, Ilumina 公 
司 收购 Solexa 公司 后 ， 继 续 沿 用 Solexa 的 标准 。 从 Genome Analyzer Pipeline version 1.3 之 
后 , Illumina 采用 新 的 标准 Glluminal1.3+)， 这 个 标准 采用 了 Phred 分 数 〈 取 值 范围 是 0 到 62) 
加 上 64 的 质量 分 数 ， 并 转换 为 相应 ASCI 码 值 对 应 的 字符 来 表示 ( 表 6-3 中 第 3 行 )。 
Iluminal.5+ 标 准将 Illumina 分 数 2 以 下 ， 统 一 表示 为 字母 B， 含 义 不 再 是 具体 分 数 ， 而 是 
一 个 读 段 的 末端 ， 即 这 段 区 域 质量 很 差 ， 以 至 于 不 能 用 于 任何 分 析 。 虽 然 各 种 质量 分 数 系 
统 都 提供 了 非常 大 的 取 值 范围 , 但 是 当前 的 技术 水 平 决定 了 Phred 分 数 的 实际 取 值 范围 仍旧 
是 0 到 40， 仅 有 Iluminal.8+ 例 外 ， 它 的 分 数 范围 是 0 到 41。 


表 6-3 各 种 分 数 类 型 的 取 值 范围 





OBF name Offset 取 值 范围 ASC11# 实际 范围 ASCI |# 
Sanger 33 0-93 33-126 0-40 33-73 
Solexa 64 -5-62 59-126 -5~40 59-104 

Illuminal.34- 64 0-62 64-126 0-40 64—104 
Illuminal.54- 64 0-62 64-126 3~40 67-104 
Illumina1.8+ 64 0~62 64-126 0-41 67-105 


i£: 0BF name 表示 0BF 项 目的 命名 ; “ 取 值 范围 ”是 指 该 系统 可 以 表示 的 Phred 分 数 的 取 值 范围 ; “ 实 
际 范 围 ” 表 示 实 际 的 “ 取 值 范围 ?; “*” 表 示 “ 取 值 范围 ”对 应 的 ASCI 码 的 值 ; “# 表示 “实际 范围 ? 
对 应 的 ASCII 码 的 值 


Sanger 分 数 (Phred+33) 和 Illumina 分 数 (Phred+64) 是 当前 应 用 最 为 普遍 的 质量 分 数 
系统 。 这 里 介绍 一 个 简单 的 方法 从 FASTQ 文件 中 直接 看 出 质量 分 数 的 种 类 : 由 于 Phred 分 
数 范 围 是 0 到 40， 对 应 Sanger 分 数 (Phred+33) 33 到 73， 其 ASCII 码 对 应 标点 符号 、 数 
字 和 部 分 大 写字 母 〈 图 6-4 中 红色 部 分 和 紫色 部 分 )， 因 此 Sanger 分 数 中 看 不 到 小 写字 母 ， 
而 且 几 乎 不 出 现 再 以 后 的 大 写字 母 。 同 理 ，Illumina 分 数 (Phred+64) 对 应 大 写字 母 和 部 分 
小 写字 母 〈 见 图 6-4 中 紫色 部 分 和 蓝 色 部 分 )， 因 此 lumina 分 数 中 经 常 出 现 小 写字 母 而 且 
几乎 不 出 现 h 以 后 的 小 写字 母 。 图 6-4 紫色 部 分 代表 Sanger 分 数 和 lumina 分 数 都 包含 的 
字符 。 

以 Phred 一 20《〈 即 常见 的 Q20 标准 ) 情况 为 例 ， 其 Sanger 分 数 (Phred+33) 为 53， 对 
应 图 6-4 中 数字 5; 其 Illumina 分 数 (Phred+64) 为 84， 对 应 图 6-4 中 字母 T。Bioconductor 
中 的 ShortRead 包 提供 了 SolexaQuality 和 PhredQuality 函数 分 别 生成 lumina 分 数 和 Sanger 
分 数 〈 见 例 6-1)。 


例 6-1: 

# 安装 并 加 载 所 需 及 包 
source(http://Bioconductor.org/biocLite.R"); 
biocLite("ShortRead") ; 

library(ShortRead); 

Q-20; 


息 学 应 用 


与 Bioconductor 生物 1 


Eu 
zl 


@ 164 RŽ 


# 计算 Q 的 Sanger 分 数 (Phred+33)。 


PhredQuality (as.integer(Q)) 


, 


o 


十 算 Q 的 Illumina 分 数 (Phred+64) 


Y 
SolexaQuality(as.integer(Q)) 


# 


, 


| Ascl 值 | 控制 字符 


T 
3 
E 
2 


ASCI | 控制 字符 | 


S|2|ó 
ul aq 


和 








图 6-4 ”质量 分 数 ASC11 码 取 值 范围 〈 见 彩 图 ) 
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6.2.3 高通 量 测序 文件 格式 


(1) FASTQ 格式 


FASTQ 格式 是 序列 文件 中 常见 的 一 种 。 由 于 FASTO 格式 最 早 应 用 于 Sanger WF, 
此 也 称 为 FASTQ-Sanger 文件 格式 四， 它 最 早 采用 的 是 Sanger 分 数 (Phred+33)。 下 面 是 一 
个 标准 的 FASTQ 格式 文件 〈 只 有 一 个 读 段 ) 的 实例 。 


例 6-2: 

@HWUSI-EAS100R:123:COEPYACXX:6:73:941:1973#0/1 

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACA 
GTTT 

+ HWUSI-EAS100R:123:COEPYACXX:6:73:941:197340/1 

P (R94) 9596 064-4-)( 9696 960). 1 ***-4-*")y"55CCE»»9»»»CCCCCCC65 


FASTQ 格式 的 文件 一 般 都 包括 四 部 分 : 第 一 部 分 是 由 “@” 开 始 ， 后 面 跟着 序列 的 描 
述 信息 《对 于 高 通 量 数据 ， 这 里 是 读 段 的 名 称 )， 这 点 跟 FASTA 格式 是 一 样 的 ， 第 二 部 分 
是 DNA 序列 ， 第 三 部 分 是 由 “+” 开 始 ， 后 面 或 者 是 读 段 的 名 称 ， 或 者 为 空 ， 第 四 部 分 是 
DNA 序列 上 每 个 碱 基 的 质量 分 数 ， 每 个 质量 分 数 对 应 一 个 DNA 碱 基 ( 表 6-4)。 


表 6-4 FASTQ 文件 中 读 段 的 名 称 含义 一 





代码 代表 意义 
HWUSI-EAS100R Illumina 测序 仪 编号 
123 流动 槽 编号 
COEPYACXX 流动 槽 名 称 
6 代表 流动 槽 中 的 第 6 个 泳 道 
73 第 6 个 流动 槽 中 的 第 73 个 小 区 
941 对 应 的 DNA 簇 在 这 个 小 区 内 的 x 轴 坐 标 信息 
1973 对 应 的 DNA 簇 在 这 个 小 区 内 的 y 轴 坐标 信息 
#0 混 样 测序 时 的 样品 编号 ，0 表示 没有 混 样 
/1 如 果 是 双 端 测序 或 者 配对 测序 (Mate-Pair)， 表 示 哪 一 端 


自 Ilumina pipeline 1.4 后 ， 读 段 的 名 称 中 用 条 形 码 Cbarcode, 也 称 index) 序列 
SNNNNNN 替换 了 #0， 以 用 户 更 方便 使 用 这 个 信息 。 当 Casava 1.8 CIllumina 提供 的 数据 处 
理 软件 ) 出 现 后 ， 读 段 的 名 称 发 生 了 较 大 的 格式 变动 ， 并 提供 了 更 为 丰富 的 信息 。 请 看 下 
面 的 一 个 例子 : @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG. 

K 6-5 新 增加 的 信息 中 ， 过 滤 标 志 位 〈Filter flag) 和 内 参 标志 位 〈Control bit) 对 数据 
的 质量 控制 和 处 理 提供 了 非常 有 价值 的 信息 。 通 过 用 户 指定 数据 过 滤 规 则 ， 由 数据 处 理 软 
件 〈 例 如 CASAVA 1.8) 对 这 个 读 段 设 定 过 滤 标 志 位 ， 如 果 该 数据 需要 过 滤 掉 就 是 Y， 否 则 
是 N (表示 需 要 保留 这 个 读 段 )。 如 果 该 读 段 是 内 参 ( 通 常 是 phiX 基因 组 )， 需 要 设 定 内 参 


名 166 RR 语言 与 Bioconductor 生物 信息 学 应 用 


标志 位 ， 它 实际 上 是 一 个 16 位 二 进 制 数 字 ， 但 是 通常 表示 为 十 进 制 数 ， 各 二 进 制 位 的 含义 
见 表 6-6。 


6-5 FASTO 文件 中 读 段 的 名 称 含义 二 





代码 代表 意义 
EAS139 Illumina 测序 仪 编号 
136 运行 的 编号 
FC706VJ 流动 槽 编号 
2 泳 道 编号 
2104 小 区 编号 
15343 所 在 DNA 簇 在 这 个 小 区 内 的 x 轴 坐 标 信息 
197393 所 在 DNA 簇 在 这 个 小 区 内 的 y fie frs A 
1 如 果 是 双 端 测序 或 者 配对 测序 (Mate-Pair)， 表 示 哪 一 端 
Y 过 滤 标 志 位 
18 内 参 标 志 位 
ATCACG 混 样 测序 时 的 条 形 码 序列 


表 6-6 内 参 标志 位 的 各 字段 含义 

二 进 制 位 代表 意义 

^H. Eo 

是 否 是 phiX 

是 否 匹 配 不 确定 碱 基 

是 否 匹 配 phiX 标签 

是 否 比 对 了 phiX 标签 

是 否 匹 配 phiX 的 条 形 码 序列 

不 用 

不 用 
8~15 内 参 文件 中 匹配 记录 对 应 的 键 


MH oO t€ A LUNDO 


Bioconductor 中 的 ShortRead 包 提 供 了 quality 函数 可 以 自动 识别 FASTO 文件 中 的 质量 
分 数 的 种 类 。 例 6-3 就 是 把 例 6-2 中 的 质量 分 数 一 行 字符 全 部 转换 为 Phred 分 数 , 读者 可 以 
尝试 分 别 用 SolexaQuality 和 PhredQuality 函数 将 其 反 转 回 Hiumina 分 数 和 Sanger 分 数 。 


例 6-3: 

# 加 载 所 需 R 包 (前 面 已 经 安装 )。 
library(ShortRead); 

# 更 换 工 作 目 录 。 


setwd("C:\\workingdirectory"); 
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# 读 入 FASTQ 文件 。 

reads <- readFastq("6-2.fastq"); 

# 得 到 质量 分 数 的 类 型 。 

score. sys = data.class(quality(reads)); 

# 得 到 质量 分 数 。 

qual «- quality(quality(reads)); 

# 质量 分 数 转 为 16 进 制 表示 。 

myqual mat <- charToRaw(as.character(unlist(qual))); 
# 如 果 是 Phred+64 分 数 表示 系统 。 

if(score sys--"SFastqQuality")( 

"8 显示 分 数 系 统 类 型 。 

cat("The quality score system is Phred+64" ,"\n"); 
# 输出 原始 分 数值 。 

strtoi(myqual mat, 16L)-64; 

} 

# 如 果 是 Phred+33 分 数 表示 系统 。 

if( score. sys--" FastqQuality")( 

8 显示 分 数 系统 类 型 。 

cat("The quality score system is Phred+33" ,"\n"); 
# 输出 原始 分 数值 。 

strtoi(myqual mat, 16L)-33; 

} 


The quality score system is Phred+33 

[1] 0. 6 6 9 7 7 7 7 9 9 9 108 8 4 4 4 10 
[19] 108 7 4 4 4 4 S8 13 169 9 9 121009 6 6 
[37] 8 8 9 9 202034 34 37 29 29 29 29 29 29 34 34 34 
[55] 34 34 34 34 21 20 


(2) NCBI 中 的 FASTQ 5 SRA 格式 


NCBI 的 Sequence Read Archive (SRA) 数据 库 ， 接 受 FASTQ 格式 的 高 通 量 数 据 上 传 ， 
并 将 分 数 标准 从 开始 的 Hiumina 分 数 转 化 成 了 Sanger 分 数 。 而 且 ，NCBI 的 FASTQ 格式 与 
FASTQ-Sanger 格式 相 比 ( 例 6-4), 在 读 段 名 称 前 面 增加 了 数据 在 SRA 库 的 编号 和 版 本 (如 
SRR001666.1, 1 是 版 本 信息 )， 后 面 增加 了 读 段 的 长 度 (“length”)。SRA 数据 库 为 了 节省 
存储 空间 ， 将 FASTQ 文件 压缩 为 二 进 制 的 SRA 格式 进行 保存 。 用 户 如 果 下 载 SRA 格式 的 
数据 ， 可 以 使 用 工具 软件 fastq-dump 将 数据 从 SRA 格式 转 回 FASTO 格式 〈 见 例 6-7)。 
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例 6-4: 

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC 
*-SRR001666.1 071112. SLXA-EASI s 7:5:1:817:345 length-36 
IIIIIIIIIIIIIIIIIIII9IG9IC 


(3) QUAL 格式 文件 


Solid 测序 仪 产生 分 离 的 序列 文件 (CSFASTA 格式 ) 和 质量 文件 (QUAL 格式 )， 两 者 
必须 成 对 出 现 。QUAL 文件 采用 Phred 分 数 ， 而 且 行 必须 与 FASTA 文件 中 的 行 一 一 对 应 。 
CSFASTA 文件 与 FASTA 格式 看 似 相 同 ， 但 实际 上 不 同 ，Solid 不 是 用 核 苷 酸 残 基 (ATCG) 
表示 序列 数据 ， 而 是 采用 了 颜色 空间 (Color space) 的 表示 方法 。Solid 的 序列 文件 如 果 和 
质量 文件 合并 ， 可 以 产生 CSFASTQ 格式 的 文件 ， 也 可 以 根据 颜色 编码 (图 6-5A) 转 为 真 
正 的 FASTQ 格式 的 文件 (图 6-5B)。 


"13 B. 
OSAA GG Ce Pn — 23.33 DIT FBE 
BARRIEN 1 -> CA, AC, TG, GT; rur wl 
: doc is pad 3 33 117 F5-BC 





图 6-5 Solid 测序 仪 的 测序 编码 方式 


Solid 的 结果 文件 转 为 标准 FASTQ 格式 的 文件 需要 注意 两 个 问题 : 第 一 是 第 1 个 碱 基 
由 于 来 自 测 序 引 物 ， 必 须 删 除 (图 6-5B); 第 二 就 是 由 于 Solid 颜色 空间 的 编码 是 前 后 依赖 
的 ,一旦 错 一 个 ,会 导致 后 面 连续 错误 ， 一 般 都 将 参考 基因 组 反 转 为 颜色 空间 编码 再 进行 
比 对 等 分 析 ， 而 不 主张 将 Solid 的 结果 文件 直接 转换 为 FASTQ 文件 。 


6.3 RNA-seq 技术 的 特点 


6.3.1 RNA-seq 对 芯片 的 优势 


RNA-seq 检测 基因 表达 主要 在 7 个 方面 比 基 因 芯片 有 优势 ( 表 6-7)。 首 先 ，RNA-seq 
不 同 于 基因 芯片 ， 检 测 转录 本 不 需要 依赖 已 知 基 因 组 或 转录 组 的 参考 序列 〈 见 5.2.1)。 
RNA-seq 可 以 通过 比 对 或 者 拼接 的 方法 〈 见 6.5)， 分 别 检测 有 参考 序列 和 无 参考 序列 的 转 
录 组 。 基 因 芯 片 的 最 主要 缺点 ， 就 在 于 它 是 一 个 “封闭 系统 ”， 只 能 检测 已 知 的 序列 或 有 
限 的 变异 ， 而 RNA-Seq 的 最 大 优势 ， 就 在 于 它 是 一 个 “开放 系统 ”， 能 发 现 和 寻找 新 的 信 
息 。 
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表 6-7 RNA-seq 的 技术 优势 





基因 芯 RNA-seq 

参考 序列 需要 不 需要 
动态 范围 小 大 

背景 噪声 X 小 

受降 解 影响 大 小 

序列 变异 无 法 检测 可 以 检测 
转录 组 方向 不 能 确定 能 确定 
可 重复 性 一 般 高 


动态 范围 大 ， 是 RNA-seq 技术 的 第 二 大 优势 ， 它 最 低 可 以 检测 《〈 即 灵敏 度 ) 到 总 RNA 
中 千 万 分 之 一 的 表达 量 ， 只 要 足够 的 测序 深度 ， 最 高 表达 量 不 受 限制 ， 而 芯片 由 于 非特 异 
性 杂交 带 来 的 噪声 ， 不 能 检测 低 丰 度 表达 的 转录 本 ， 而 且 ， 超 过 一 定 丰 度 ， 检 测 会 产生 饱 
和 现象 。 如 Affymetrix 芯片 上 最 多 检测 50 000 个 拷贝 ,超过 这 个 数值 ， 检 测 信号 也 不 会 增 
K (E 6-6)。 另 外 ， 艾 片 的 非特 异性 杂交 还 带 来 的 背景 噪声 还 影响 了 检测 准确 度 。 
饱和 区 


低 灵 人 敏 度 





表达 量 


6-6 基因 芯片 的 动态 范围 


RNA-seq 提供 了 更 为 丰富 的 序列 信息 ， 包 括 可 变 前 切 、 融 合 基因 或 SNP 等 大 量 序列 变 
异 信息 ， 而 且 链 特异 性 技术 可 以 测定 转录 本 来 自 于 DNA 哪 条 链 。 

从 第 五 章 CLL 数据 集 可 以 看 到 ， 由 于 多 种 因素 降低 了 芯片 实验 的 可 重复 性 ， 造 成 了 同 
一 类 芯片 样本 之 间 的 相似 度 大 幅 降 低 ， 而 RNA-seq 实验 可 重复 性 非常 高 ， 同 类 样本 间 的 相 
关系 数 往往 能 够 达到 0.9 AE CI 6.4.4)。 


6.3.2 RNA-seq 存在 的 问题 


RNA-seq 检测 基因 表达 比 基 因 芯片 有 如 此 多 的 优势 ， 大 有 取代 基因 芯片 之 势 ， 那 么 它 
是 否 就 是 一 个 完美 的 技术 呢 ? 回答 是 否定 的 。 尽 管 RNA-seq 相对 于 基因 芯片 技术 的 提高 是 
显著 的 ， 甚 至 是 革命 性 的 ， 即 使 不 考虑 当前 相对 高 的 成 本 〈 这 个 随 着 应 用 范围 增 大 会 慢 慢 
降低 )， 而 且 RNA-seq 依然 存在 着 很 多 其 他 问题 。 

第 一 ，RNA-seq 测序 之 前 需要 一 个 比较 复杂 的 文库 构建 过 程 ， 这 个 过 程 中 的 每 个 步骤 
都 会 带 来 误差 ， 甚 至 导致 实验 失败 。 如 cDNA 片段 化 、PCR 扩 增 等 都 会 带 来 偏 倚 (Bias )， 
最 终 导致 有 的 片段 被 反复 测 了 多 次 ， 有 的 没有 测 到 。rRNA 去 除 不 干净 等 因素 也 会 带 来 大 量 
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污染 〈 即 非 目 标 序 列 )。 还 有 很 多 其 他 由 实验 带 来 的 问题 ， 如 链 特异 性 转录 组 建 库 中 很 容易 
导致 第 二 链 中 的 dUTP 消化 不 全 。 

第 二 ，RNA-seq 检测 灵敏 度 和 最 大 值 是 随 测 序 深 度 变化 的 ， 深 度 不 够 ， 不 能 发 现 超 低 
表达 的 转录 本 ， 需 要 在 测序 前 预 估 转 录 组 的 大 小 。 由 于 复杂 的 RNA 编辑 等 原因 ， 高 等 生物 
的 转录 组 数量 与 其 编码 的 基因 数量 没有 固定 的 比例 关系 ， 因 此 预 估 可 能 会 有 较 大 误差 。 

第 三 ， 参 考 基因 组 或 转录 组 不 准确 、 测 序 误 差 、 错 误 拼 接 或 者 比 对 带 来 的 错误 会 大 大 
影响 各 种 变异 或 者 可 变 前 切 事件 的 识别 。 例 如 ， 使 用 Trinity 拼接 转录 组 时 ， 有 可 能 把 同 源 
基因 或 者 同一 家 族 的 相似 基因 误 拼 在 一 起 ;， 当 使 用 Bowtie 十 Tophat 软件 比 对 高 等 生物 的 转 
录 组 时 ， 其 外 显 子 一 内 含 子 边 界 的 确定 也 是 一 个 难题 。 因 此 ，RNA-seq 发 现 多 样 性 的 能 力 
就 大 打折 扣 。 

第 四 ， 各 种 其 他 问题 。 如 整个 实验 流程 中 有 可 能 引进 各 种 污染 〈 见 64.10: 多 样品 混用 
同一 个 泳 道 时 ，Barcode 会 出 现 错 误 分 配 ， 其 原因 很 多 外 ， 原 始 数 据 的 预 处 理 ， 表 达 差 异 分 
析 的 数学 模型 等 各 方面 都 还 不 是 很 完善 。 

下 面 讨论 一 下 如 何 计算 由 测序 误差 引起 的 Barcode 的 错误 分 配 , 假设 Barcode 的 长 度 为 
6 个 碱 基 ， 每 个 样品 之 闻 的 标记 距离 为 2 (也 就 是 barcode 中 两 两 之 间 有 2 个 碱 基 不 同 )， 所 
有 的 Barcode 都 用 满 ， 同 时 假设 错误 的 发 生 符合 二 项 分 布 ， 那么 只 要 2 个 碱 基 错 误 ， 就 会 发 
生 一 次 错误 分 配 ， 在 Hiumina 测序 仪 每 个 碱 基 的 平均 错误 率 0.5% 的 前 担 下 ， 通 过 例 6-5, 
就 可 以 计算 出 一 个 泳 道 的 测序 错误 分 配 概率 。 


例 6-5: 

p=0.0005 

sum (Sapply(2:6,FUN=function(k) choose(6,Kk)*p^k*(1-p)^(6-k))) 

[1] 0.0003700281 

也 就 是 说 ， 在 一 个 泳 道中 ， 每 百 万 读 段 就 会 有 370 个 读 段 分 配 错误 。 例 6-5 还 只 是 考 
虑 了 测序 误差 引起 的 Barcode 错误 分 配 ， 如 果 考 虑 其 他 的 因素 ， 例 如 DNA 簇 混 合 (Mixed 
clusters) 和 跳跃 PCRCJumping PCR ) 引 起 的 Barcode 错误 分 配 , 这 个 数值 还 要 高 很 多 .Barcode 
的 错误 分 配对 于 大 部 分 的 转录 组 分 析 没 有 影响 ， 但 是 对 于 一 些 高 灵敏 度 的 检测 项 目 《〈 例 如 
癌症 中 常见 的 稀有 突变 检测 )， 影 响 还 是 很 大 的 。 


6.4 RNA-seq 数据 预 处 理 


RNA-seq 数据 预 处 理 与 基因 芯片 数据 预 处 理 一 样 ( 见 5.3)， 目 的 都 是 得 到 基因 表达 数 
据 ， 这 里 的 基因 确切 来 说 是 转录 本 。 但 是 ，RNA-seq 数据 预 处 理 与 芯片 预 处 理 也 有 很 多 不 
同 ， 下 面 根据 RNA-seq 的 处 理 流程 逐一 介绍 。 

6.4.1 质量 控制 


更 详细 的 数据 质量 分 析 报 告 可 以 调用 ShortRead 包 中 的 qa 函数 得 到 。 另 外 一 个 常用 的 
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工具 是 FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)， 读 者 可 以 尝试 对 比 两 
种 方法 的 结果 。 例 6-6 就 是 用 qa 函数 生成 质量 分 析 报告 的 实例 , 示例 数据 来 自 SRA 数据 库 
的 RNA-seq 数据 SRR921344( 表 6-1). 由 于 RNA-seq 数据 普遍 较 大 , 本 例 建议 运行 在 Linux 
服务 器 (操作 系统 Fedora) 和 4G 内 存 的 Windows 系统 上 。 运 行 qa 函数 之 前 , 需要 通过 SRAdb 
包 的 getFASTOfile 函数 下 载 示例 数据 。 


例 6-6: 

# 安装 并 加 载 所 需 R 包 。 
source(http://Bioconductor.org/biocLite.R"); 
biocLite("ShortRead") ; 

biocLite(" SRAdb"); 

biocLite("R.utils"); 

library(ShortRead); 

library(SRAdb); 

library(R.utils); 

8 下 载 需要 的 数据 文件 。 

getFASTOfile(" SRR921344"); 

# 解压 后 ， 改 名 为 "T2-1 .fastq"。 

gunzip ("SRR921344.fastq.gz", destname="T2-1.fastq"); 
# 需要 分 析 的 数据 文件 名 称 。 
fastgfilez"T2-1.fastq"; 

# 得 到 质量 分 析 的 结果 。 

qa <- qa(dirPath=".", pattern=fastqfile, type-"fastq"); 
# 输出 html 格式 的 分 析 报 告 。 

report(qa, dest-"qcReport", type-"html"); 


例 6-6 执行 完毕 ， 得 到 一 个 结果 目录 ， 名 称 是 “qcReport”， 主 要 包括 质量 分 析 的 报告 
文件 “index.html” 和 文件 夹 “image”， 文 件 夹 “image” 包 括 所 有 的 统计 信息 图 示 。 报 告 文 
件 “index.html” 主 要 分 为 以 下 几 个 部 分 。 

第 一 部 分 是 报告 汇总 信息 ， 告 诉 你 此 次 质量 分 析 都 处 理 了 哪些 数据 文件 ， 每 个 文件 原 
始 读 段 有 多 少 ， 过 滤 掉 多 少 和 比 对 上 多 少 。 例 6-6 中 ， 只 需要 分 析 一 个 数据 “T2-1.fastq”， 
这 个 数据 共有 6711429 个 读 段 ， 没 有 经 过 任何 过 滤 或 者 比 对 (图 6-7A)。 接 下 来 就 是 读 段 
质量 分 数 分 布 图 (图 6-7B)， 它 横 坐 标 是 质量 分 数值 ， 纵 坐标 是 数据 “T2-1.fastq” 内 总 读 
段 中 的 各 种 质量 分 数 的 比例 含量 ,从 图 6-7B 中 可 以 看 出 , 读 段 质量 分 数 的 峰值 中 心 接近 40, 
而 且 总 体 上 比较 集中 ， 说 明 测 序 质量 还 是 非常 高 的 。 

下 一 个 比较 重要 的 信息 是 前 20 个 高 频 出 现 的 读 段 统计 信息 (图 6-8A)， 这 些 序列 对 于 
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确定 接头 或 者 其 他 污染 很 重要 ， 一 般 需 要 将 这 前 20 条 序列 对 比 到 NCBI NT 数据 库 查看 是 
否 来 自 某 种 污染 (如 大 肠 杆菌 污染 )。FastQC 软件 带 有 一 个 文件 包括 了 常用 的 lumina 接头 
序列 ， 会 把 高 频 出 现 的 序列 比 对 到 这 些 接头 序列 ， 并 给 予 提 示 ; Bioconductor 需要 编程 比 对 
到 NCBI UniVec 数据 库 〈http://www.ncbi.nlm.nih.gov/tools/Vecscreen/univec/) 来 确定 接头 序 
列 ， 读 者 可 以 自己 尝试 。 再 接 下 来 就 是 四 种 碱 基 (ATCG) 的 逐 点 质量 图 (图 6-8B)， 该 图 
横 坐 标 是 测序 的 循环 数 (Cycle)， 对 应 测序 时 5’ 端 开始 的 每 个 位 点 , 纵 坐 标 是 所 有 该 位 点 测 
量 的 碱 基 的 质量 分 数 平均 值 。 另 外 ， 质 量 分 析 的 报告 文件 “index.html” 对 所 有 的 结果 报告 
和 图 形 都 给 出 了 对 应 的 函数 和 参数 注释 (图 6-8A 中 黑色 框 内 部 分 )， 读 者 可 以 根据 这 些 信 
息 ， 自 行 改变 参数 ， 输 出 自己 需要 的 信息 。 


A. B. 
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图 6-7 汇总 信息 和 读 段 质量 分 数 分 布 图 


A. 
Common duplicate reads might provide clues to the source of over- 


represented sequences. Some of these reads are filtered by the alignment 
algorithms; other duplicate reads might point to sample preparation issues. 


ShortRead:::.freqSequences(qa, "read") 


sequence 

CTCCACACITGCATGCATGTICCACCCICAGCTIACAAAGCITCCCTICACTIC 
CITAATCTITIGICCATGAGICCCITCTICICATGICCITCCICICCIACATT 
CICAATCICATCACCAAAACGGCCGCCAGTGATTTCCGICIGTAGATTACC 
CTGITCGCTIACCATGATCACCGCCAGGCAGCTICTCCTITGATCTTCICCAC 
AGARAAACITAGTAGCCATCGGGCTTATGIGCGATGAAACTGATACATIGC 
CCGGGAACACACGTCTTACCATCACACCTAGTAGTATAATAAAAGCCAGGA 
GTICGATTICICAACGTTGCATGAGTITGCAGTTGCAGCTIGAGCCGCAIGAG 
CTGGTAACTTGTCCTTAATCTTGTCCATGAGTCCCTICTTICTCATGICCIT 
GGGGACTCCGAGAGCTTCGAGAGAGACTITAACTTTAGCCATGTCTTICCGT 
ATATATICCGAGCIGCTICGTATCTITGCAATAGATAGCTGCTTGAGCAACA 


count 
1220 
1124 
1019 
1013 
989 
900 
865 
857 
745 
725 


CCACACTTIGCATGCATGICCACCCICAGCIACAAAGCTICCCICACTICCA 707 


CICAAGCITATCCTCITCTICAAATTCCIGCGCTCCGCIACICTGGGIGAT 
CGGGGGAGCGATTGTTICICACGGTAGGGGAAACCGTGCTCCAACICGAATT 
GGGAGCGATTGITCTCACGGIAGGGGAAACCGTGCTCCAACTCGAATTCCA 
GIGATTICCGICIGTAGATTACCGAAAACCICGTTGCGATIAGAACGATCC 
GCTCAATCTCATCACCAAAACGGCCGCCAGIGATITCCGTCTGTAGATTAC 
CGGGAACACACGTICTTACCATCACACCTAGTAGTATAATAAAAGCCAGGAG 
CGGGICCICAACGTIAAATACCAGAGATTIGAATGAIGICTIICACCCICAGC 
CTCGITTIICCCAGGAATCIGCCGAGGGCCCIATCICTATAGACAAGTAACA 
GICGAITICICAACGICGIAIGAGITGCAGITGCAGCTGCIGCCGCATGAG 


non duplicate reads after filtering 


ShortRead:::.freqSequences(qa, "filtered") 


'ommon aligned duplicate reads are 


ShortRead:::.freqSequences(qe, "aligned") 


692 
686 
676 
661 
636 
631 
607 
607 
598 





$73  Bioconductor 分 析 RNA-seq 数据 


i 


ru 


173 @ 





64 









n 
e INIININISINISININININnS 


| 
| 
| 





log10(Count) 
» 
s 


| 
MI 


1| 


60 


图 6-8 ”高 频 读 段 信息 和 四 种 碱 基 逐 点 质量 图 〈 见 彩 图 ) 
质量 控制 中 最 重要 的 一 个 图 就 是 逐 点 质量 图 ， 它 与 四 种 碱 基 逐 点 质量 图 的 区 别 在 于 不 


区 分 碱 基 种 类 ， 给 出 每 个 位 点 的 测序 质量 分 数 的 平均 数 〈 
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见 图 6-9 绿色 实 线 )、 中 位 数 〈 见 


图 6-9 橙色 实 线 ) 和 上 下 四 分 位 线 〈 见 图 6-9 REER) ME 6-9 中 可 以 看 出 ，Illumina 
测序 仪 产 生 的 读 段 的 9 端 前 几 个 位 置 和 3’ 端的 后 几 个 位 置 测序 质量 比较 低 ， 根 据 这 个 规律 
可 以 开发 读 段 清理 程序 ， 去 除 两 端的 低 质 量 区 域 ( 见 6.4.2)。 

质量 分 析 是 下 一 代 测 序数 据 分 析 的 第 一 步 ， 其 作用 至 关 重 要 ， 通 过 质量 控制 ， 可 以 确 
定 当前 样品 的 数据 是 否 应 该 保留 进入 下 一 步 分 析 或 者 丢弃 。 对 于 通过 质量 控制 的 数据 ， 还 
要 进行 读 段 清理 ， 清 理 后 的 数据 才 是 实际 分 析 中 使 用 的 数据 。 这 里 需要 注意 的 是 ， 发 表 高 
通 量 测序 方面 的 文章 ， 要 求 向 SRA 数据 库 提交 的 应 该 是 原始 数据 (Raw data)， 即 未 经 清理 
的 测序 仪 下 机 数据 ， 经 过 测序 仪 随机 软件 (如 CASAVA) 简单 处 理 的 ， 应 该 记录 下 软件 版 


本 和 处 理 时 设 定 的 参数 。 
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图 6-9 读 段 逐 点 质量 图 〈 见 彩 图 ) 


6.4. 读 段 清理 


由 于 RNA-seq 得 到 的 是 Fastq 格式 的 序列 文件 ( 见 6.2.22. 首先 要 对 其 中 的 所 有 读 段 进 
行 数据 清理 ， 也 称 读 段 清理 (Read cleaning)， 主 要 包括 去 + 汉中 的 多 个 “N” 碱 基 (表示 
未 知 核 音 酸 )， 读 段 两 端的 低 质 量 区 域 〈 质 量 分 数 小 于 Q20), E 3 端 可 能 混入 的 接头 序 
列 , 还 有 可 能 污染 进来 的 rRNA 和 病毒 序列 。 高 山 等 开发 了 一 个 基于 Bioconductor 的 一 体 化 
程序 (未 发 表 )， 可 以 通过 简单 操作 实现 上 述 全 部 功能 。 该 软件 应 用 在 菊花 转录 组 中 路， 得 
到 如 下 读 段 清理 结果 (图 6-10)。 
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Sample Raw_reads Raw len Clean reads Clean len Removed reads Removed nt rRNA Virus 
Ti 10,023,119 100 8891363 90.34 11.2996 19.86% 8,860,544 8,860,445 
T2 5,961,530 100 5287312 90.31 11.31% 19.90% 5,270,081 5,270,009 
T3 11,565,999 100 10260697 90.20 11.29% 19.98% 10,218,377 10,218,122 

T1-1 11,241,208 51 9277082 47.25 17.47% 23.54% 9,236,585 9,235,860 
T2-1 6,711,429 51 5539140 47.25 17.47% 23.54% 5,516,813 5,516,378 
T3-1 13,347,895 51 11024879 47.25 17.40% 23.47% 10,968,524 10,967,536 
CK1 9,895,473 100 8738818 89.97 11.6996 20.5496 8,705,012 8,704,849 
CK2 10,764,969 100 9545885 90.12 11.3276 20.0996 9,516,028 9,515,764 
CK3 11,003,841 100 9711817 89.84 11.7496 20.7196 9,685,917 . 9,685,618 
CK1-1 11,447,384 51 94012198 47.24 17.8796 23.9296 9,357,095 9,356,448 
CK2-1 12,367,882 51 10203604 47.25 17.5096 23.5796 10,164,356 10,163,595 
CK3-1 12,851,113 51 10543333 47.25 17.9696 24.0096 10,509,066 10,508,238 


图 6-10 ” 读 段 清理 结果 


以 100 bp 读 段 为 例 ， 读 段 清 理 的 基本 原理 是 ， 首 先 将 所 有 低 于 Q20 KAARI 
为 “N” 然后 切除 5’ 端 前 10 bp 中 的 和 3? 端 后 50 bp 中 的 “N?”， 剩 下 的 部 分 如 果 还 有 2 个 
以 上 的 “N”， 扔 掉 整 条 读 段 ， 去除 3? 端 可 能 混入 的 接头 序列 ， 再 扔 掉 与 rRNA 和 病毒 相似 
的 序列 。 从 图 6-10 中 ， 可 以 看 到 样品 “T1” 含 有 10023 119 条 长 度 为 100 bp 的 原始 读 段 ， 
读 段 清理 后 得 到 8 891 363 条 读 段 ， 平 均 长 度 为 90.34 bp， 去 除 rRNA 后 得 到 8 860 544 条 读 
段 ， 再 去 除 病毒 后 得 到 8 860 445 条 读 段 。 整 个 数据 处 理 过 程 共 去 掉 11.29% 的 读 段 ， 共 去 掉 
19.86% 的 核 苷 酸 残 基 。 

根据 读 段 清理 的 结果 中 的 简单 质量 信息 ， 即 可 完成 部 分 质量 控制 。 例 如 
“Removed_reads” 表 示 有 多 少 比例 的 读 段 被 整体 去 除 ,“Removed_nt” 表 示 有 多 少 比例 核 背 
酸 残 基 被 去 除 , "rRNA" ARR rRNA 后 剩 下 的 读 段 数量 ,“Virus” 表 示 去 除 病毒 后 剩 下 
的 读 段 数量 。 根 据 这 些 质量 信息 ， 可 以 简单 判定 实验 的 数据 质量 ， 如 果 某 项 污染 去 除 的 比 
例 高 于 一 定 阔 值 ， 该 样品 建议 作废 ， 例 如 “Removed_reads” 超 过 一 定 比 例 (40% 或 更 高 )。 
因为 ， 大 量 低 质量 数据 去 除 不 是 均一 的 ， 会 影响 基因 表达 的 分 布 ， 特 别 是 在 该 样品 测序 深 
度 不 足够 高 的 情况 下 ， 一 些 低 表达 基因 的 读 段 可 能 被 完全 去 除 。 从 图 6-10 中 可 以 看 到 ， 几 
个 重复 样品 的 主要 去 除 指标 都 远 远 低 于 40% ， 而 且 数值 非常 接近 ， 表 明 该 实验 数据 集 的 质 
量 是 很 高 的 。 

读 段 清理 的 难点 在 于 ， 需 要 去 除 的 低 质量 和 接头 等 残 基 在 不 同 的 读 段 上 是 不 等 长 的 ， 
有 的 长 有 的 短 ， 需 要 通过 模式 匹配 来 准确 删除 ， 而 模式 匹配 还 需要 考虑 测序 误差 带 来 的 错 
配 等 因素 。 如 果 用 fastx_toolkit Chttp://hannonlab.cshl.edu/fastx toolkit/) 等 工具 简单 删除 3 
端 儿 个 固定 残 基 ， 就 会 残留 部 分 接头 ，Bioconductor 没有 提供 查看 3? 端 接头 序列 的 方法 ， 只 
能 调用 FastQC 软件 完成 ( 见 例 6-7)。 这 个 读 段 清理 程序 的 最 大 优点 是 , 充分 利用 了 Illumina 
的 序列 特征 ， 例 如 5 端 前 儿 个 残 基 和 3’ 端 一 定数 量 残 基质 量 低 于 阔 值 。 它 非常 精确 地 去 除 
REIRE, A RNA 和 病毒 等 污染 ， 最 大 限度 保留 了 高 质量 数据 。 现 有 的 其 他 程序 对 
读 段 的 处 理 都 很 粗糙 ， 存 在 很 多 问题 ， 例 如 有 的 程序 根据 固定 长 度 切 掉 3 端的 几 个 残 基 当 
作 接 头 ， 还 有 的 程序 通过 平均 数 方法 去 掉 质 量 比较 低 的 整 条 读 段 。 读 段 清理 对 于 后 续 的 拼 
接 和 比 对 非常 重要 ， 我 们 的 研究 表明 ， 好 的 读 段 清理 可 以 大 大 提高 读 段 比 对 到 基因 组 的 百 
分 比 。 由 于 这 个 读 段 清理 程序 需要 较 多 编程 技巧 和 更 多 二 代 测 序 的 相关 知识 ， 这 里 不 做 详 
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细 讨 论 。 另 外 ， 实 际 中 遇 到 的 各 种 污染 情况 非常 复杂 ， 除 了 这 个 读 段 清 理 程序 考虑 的 接头 、 
rRNA 和 病毒 等 污染 ， 还 有 可 能 有 细菌 、 真 菌 等 其 他 类 型 的 污染 。 如 果 样 本 不 是 来 自 实验 室 
的 细胞 系 ， 例 如 野外 的 植物 或 动物 ， 情 况 则 更 复杂 。 


例 6-7: 

# 进入 linux 系统 ， 下 载 高 通 量 数据 SRR987316.sra。 

wgetftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR987/SRR987316/ 
SRR987316.sra 

# 将 SRA 格式 的 高 通 量 数据 转换 为 FASTQ 格式 。 

Jfastq-dump SRR987316.sra 

# 调用 fastqc 软件 (版 本 0.10.1) 输出 质量 控制 报告 。 

fastqc SRR987316.fastq 


例 6-7 中 , SRR987316.sra( 测 序 长 度 36bp) 是 small RNA-seq 数据 , 下 载 后 用 fastq-dump 
工具 (版 本 2.1.7) 进行 格式 转换 ， 再 用 FastQC 输出 质量 控制 报告 ， 从 子 串 图 中 可 以 明显 地 
看 到 尾部 高 频率 的 Sbp 长 的 子 串 来 自 接头 序列 , 再 结合 高 频 读 段 表 即 可 确定 3’ 端 接头 序列 
(图 6-11)。 从 高 频 读 段 表 的 前 10 个 读 段 中 ， 还 可 以 发 现 频率 最 高 的 第 一 个 序列 出 现 次 数 
1 449 872， 占 了 这 个 样品 读 段 总 数 的 16.79%， 是 很 严重 的 mRNA 污染 ， 读 者 可 以 将 此 读 段 
比 对 到 NCBI NT 数据 库 查 看 结果 。 这 个 结果 还 说 明了 由 于 mRNA. rRNA 等 多 种 污染 ， 再 
结合 测序 错误 ， 精 确 地 拿 到 3? 端 接头 序列 还 是 需要 经 验 的 。 接 下 来 的 一 个 例子 最 高 频率 的 
读 段 出 现 了 2 996 052 次 (16.88%)， 就 是 很 严重 的 rRNA 污染 ， 

例 6-7 之 所 以 用 small RNA-seq 数据 来 举例 说 明 如 何 根据 质量 控制 信息 来 确定 接头 序 
列 ， 是 因为 small RNA-seq 测序 待 测序 序列 普遍 小 于 2Sbp， 几 乎 一 半 的 序列 是 来 自 3’ 端 接 
头 ， 如 果 不 能 精确 地 判定 出 3’ 端 接头 ， 会 严重 影响 后 续 分 析 ， 甚 至 导致 错误 的 结论 出 现 。 
特别 是 当前 的 很 多 公开 数据 ， 甚 至 测序 公司 提供 的 数据 都 不 提供 详细 的 3’ 端 接头 信息 ， 通 
过 质量 分 析 判 断 接 头 在 实际 工作 中 非常 重要 。 例 6-7 的 接头 序列 恰好 在 26bp 位 置 有 一 个 很 
明显 的 峰值 ， 再 结 高 频 读 段 表 ， 很 快 就 可 以 加 以 确定 。 但 是 并 不 是 说 所 有 的 3? 端 接头 都 会 
在 一 个 固定 位 置 且 有 一 个 如 此 明显 的 峰值 ， 读 者 可 以 用 EastQC 分 析 另 外 一 个 数据 
SRR345550.sra (测序 长 度 49bp) 并 输出 质量 控制 报告 ， 它 的 第 一 个 高 频 序列 
“GCGCGGGACATGTGGCGTACGGAAGTCGTATGCCGTCTTCTGCTTG” 即 由 rRNA 序列 
“GCGCGGGACATGTGGCGTACGGAAG” 和 3’ 端 接头 “TCGTATGCCGTCTTCTGCTTG” 
两 部 分 组 成 。 读 者 可 以 自己 尝试 比 对 这 段 rRNA 序列 到 NCBI NT 数据 库 查看 结果 ， 并 自行 
总 结 确定 3? 端 接头 的 出 现 规律 。 
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90 
CTGTAGGCACCATCAATTCGTATGCCGTCTTCTGCTT 


80 -一 前 10 个 高 频 读 段 
Tasse  TGCTAGCTTATCAGACTGATGTTGACTGTAGGCACC 
epa TGCCTGTAGGCACCATCAATTCGTATGCCGTCTTCT 
60 TGCTCAGTGCACTACAGAACTTTGTCIGTAGGCACC 
TGCTGAGGTAGTAGATTGTATAGTTCTGTAGGCACC 
TGCTGAGGTAGTAGATTGTATAGTCTGTAGGCACCA 
as TGCTGTAACAGCAACTCCATGTGGAACTGTAGGCAC 
AGCTGTAGGCACCATCAATTCGTATGCCGTCTICTG 
30 TGGCAAGCTGCCAGTTGAAGAACTGTCTGTAGGCAC 
A TOCTGAGGTAGTAGGTTGTATOGTTCTGTAGGCACC 
/ | TGCTGGCTCAGTTCAGCAGGAACAGTCTGTAGGCAC 





12 3 4 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 
Position in read (bp) 


图 6-11 查看 3' 端 接头 〈 见 彩 图 ) 
6.4.3 转录 组 组 装 


转录 组 组 装 包括 从 头 组 装 〈 如 菊花 转录 组 ) 和 基于 参考 序列 的 组 装 〈 如 人 的 转录 组 )， 
其 基本 原理 前 面 已 经 介绍 。 对 于 两 种 策略 联合 使 用 的 先 比 对 再 组 装 和 先 组 装 再 比 对 方法 ， 
由 于 缺少 相应 的 软件 及 相关 研究 ， 这 里 不 做 进一步 讨论 。 转 录 组 组 装 一 般 使 用 C 或 Java 等 
程序 语言 开发 的 软件 实现 ，R 和 Bioconductor 没有 对 应 的 包 。 

从 头 组 装 最 常用 的 软件 是 Trinity， 其 优点 是 : 不 依赖 于 参考 序列 ; 能 较 好 地 重建 变异 
的 、 可 变 剪 切 的 或 者 来 自 染 色 体 重组 的 转录 本 。 从 头 组 装 的 缺点 有 : 需要 较 大 内 存 资源 ; 
需要 较 高 深度 的 测序 〈 至 少 60X 以 上 ); 对 测序 错误 敏感 ， 如 果 用 KFE (Kmer) 法 去 除 
错误 (如 Trinity)， 会 去 除 低 丰 度 的 转录 本 ; 高 相似 度 的 转录 本 〈 如 同 源 基因 ) 可 能 会 被 误 
拼 到 一 起 。 基 于 参考 序列 的 组 装 常 使 用 TopHat (实际 上 是 通过 两 次 调用 Bowtie 来 完成 比 对 ) 
和 Cufflinks 〈 主 要 用 于 转录 本 识别 、 定 量 、 标 准 化 及 差异 分 析 ) 两 种 软件 的 组 合 来 完成 。 
其 优点 是 ， 内 存 需求 小 : 污染 影响 小 ， 因 为 污染 读 段 不 能 比 对 到 参考 序列 ， 灵 敏 度 高 ， 所 
需 测 序 深度 低 (最 低 可 以 到 10X， 建 议 使 用 20X)， 能 检测 低 丰 度 的 转录 本 ; 组 装 的 转录 本 
序列 更 完整 ， 可 以 增加 参考 基因 组 中 的 转录 本 注释 。 基 于 参考 序列 的 组 装 的 缺点 : 严重 依 
赖 参考 序列 及 其 注释 信息 ; 比 对 带 来 的 错误 的 影响 ， 不 容易 组 装 Trans-spliced genes， 而 这 
些 基因 对 于 某 些 癌症 研究 十 分 关键 。 

本 章 中 的 菊花 基因 组 使 用 Trinity 软件 从 头 组 装 得 到 111 641 个 Contig, 为 了 去 除 拼接 软 
件 存在 的 欠 拼 接 问题 ， 使 用 本 实验 开发 的 iassembler 软件 〈bioinfo.bti.cornell.edu/tool/ 
iAssembler) 进行 二 次 拼接 ， 最 终 得 到 98 180 个 Unigenes。 
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6.4.4 转录 组 定量 和 标准 化 


有 参 的 转录 组 定量 ， 需 要 利用 TopHat 比 对 软件 将 所 有 读 段 比 对 到 参考 基因 组 上 ， 然 后 
由 Cufflinks 软件 完成 定量 ;无 参 的 转录 组 定量 需要 利用 Bowtie 或 BWA 比 对 软件 将 所 有 读 
段 比 对 到 组 装 得 到 的 转录 组 上 直接 计数 。 无 论 哪 种 组 装 方式 ， 都 会 遇 到 读 段 比 对 问题 ， 单 
端 测序 读 段 的 比 对 比较 简单 ， 双 端 测序 读 段 的 比 对 问题 比较 复杂 。 双 端 测 序 的 质量 不 一 致 ， 
往往 是 反 向 一 端 测序 质量 低 ， 如 果 按 照 同 样 的 标准 〈 例 如 允许 一 个 错 配 ) 要 求 两 端 测序 的 
读 段 都 比 对 上 , 会 丢失 很 多 比 对 结果 。 一 般 采 取 的 方式 是 两 端 读 段 分 别 根据 不 同 的 标准 〈 例 
如 正 向 允许 一 个 错 配 ， 反 向 允许 两 个 错 配 ) 做 单 端 比 对 ， 然 后 根据 两 端 对 齐 后 中 间距 离 〈 即 
文库 插入 长 度 ) 抽取 成 对 的 比 对 结果 。 如 果 是 比 对 到 基因 组 还 需要 设 定 对 齐 的 总 数 ， 即 同 
一 对 读 段 在 基因 组 上 比 对 上 的 位 点 过 多 ， 则 去 除 。 转 录 组 定量 得 到 的 基因 表达 矩阵 是 简单 
计数 得 来 的 ， 因 此 称 作 原 始 计数 (Raw counts)。 有 参 的 转录 组 的 定量 ， 可 以 用 Bioconductor 
的 GenomicRanges/Rsamtools 软件 包 中 的 summarizeOverlaps 函数 来 实现 。 输 入 的 数据 为 比 
对 后 得 到 的 Bam 或 者 Sam 文件 ,经 过 基因 水 平 或 者 外 显 子 水 平 ( 见 Bioconductor 中 DEXSeq 
软件 包 的 说 明 ) 的 计数 ， 可 以 直接 输出 为 某 种 预定 义 对 象 ， 便 于 下 游 软件 〈 如 edgeR 包 和 
DESeq 包 ) 继续 处 理 。 例 6-8 调用 了 summarizeOverlaps 函数 从 Bam 文件 中 获取 原始 计数 ， 
并 输出 为 edgeR 包 和 DESeq 包 中 的 数据 对 象 。 


例 6-8: 
# 安装 并 加 载 所 需 R 包 。 
source('http://Bioconductor.org/biocLite.R"); 
biocLite("Rsamtools "); 
biocLite("DESeq"); 
biocLite("edgeR"); 
library(Rsamtools); 
library(DESeq); 
library(edgeR); 
# 示例 数据 来 自 GenomicRanges 包 中 的 文件 extdata。 
fls <- list.files(system.file("extdata" ,package-" GenomicRanges"), 
recursive- TRUE, patternz"*bam$", full TRUE); 
bfl <- BamFileList(fls, index-character()); 
features «- GRanges( 
seqnames = c(rep("chr2L'", 4), rep("chr2R", 5), rep("chr3L/", 2)), 
ranges = IRanges(c(1000, 3000, 4000, 7000, 2000, 3000, 3600, 4000, 
71500, 5000, 5400), widthzc(rep(500, 3), 600, 900, 500, 300, 900, 
300, 500, 500)), "-", 
group id-c(rep(" A", 4), rep("B", 5), rep C", 2)) ; 
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olap <- summarizeOverlaps(features, bfl) ; 
deseq <- newCountDataSet(assays(olap)$counts, rownames(colData(olap))) ; 


edger <- DGEList(assays(olap)$counts, group=rownames(colData(olap))) ; 


类 似 基 因 芯 片 ，RNA-seq 定量 后 的 数据 需要 标准 化 ， 使 所 有 样品 具有 可 比 性 。 最 常见 
的 一 个 指标 是 RPKM(Reads Per Kilo bases per Million reads)， 即 每 百 万 读 段 中 来 自 某 一 基因 
每 千 碱 基 长 度 的 读 段 数目 。 有 具体 计算 时 使 用 比 对 到 某 个 基因 的 读 段 个 数 除 以 比 对 到 基因 组 
或 者 转录 组 的 所 有 读 段 的 个 数 〈 以 百 万 为 单位 )， 再 除 以 基因 或 者 转录 本 的 长 度 ( 以 KB 为 单 
位 )。 实 际 应 用 中 , 基因 表达 差异 分 析 的 常用 软件 edgeR 和 DESeq 都 自 带 了 数据 标准 化 功能 ， 
可 以 直接 处 理 用 原始 计数 表示 的 基因 表达 和 抢 阵 ，RPKM 表示 的 基因 表达 矩阵 的 使 用 主要 是 
为 了 方便 用 户 直接 观察 数据 〈 见 例 6-9)。 


例 6-9: 

setwd("C:/workingdirectory"); 

# 导入 数据 , 第 1 列 是 基因 名 称 用 作 row.name, 最 后 一 列 是 基因 长 度 , 第 1 行 是 sample 名 称 。 
raw.data <- read.table("raw_counts.table",row.names=1); 

# 去 除 第 1 列 长 度 信息 ， 只 保留 样本 的 基因 表达 值 。 

counts «- raw.data[, 2:dim(raw.data)[2]]; 

# 取出 第 1 列 长 度 信息 。 

length«-raw.data[, 1]; 

# 读 取 lib_size， 即 每 个 样品 可 以 对 齐 到 转录 组 的 读 段 总 数 。 
lib size <- read.table("lib. size.txt"); 

lib size «- unlist(lib size); 

# 计算 RPKM 值 。 

rpkm <- t(t(counts/length)*1 0^9/lib size); 

8 输出 为 表 的 格式 。 

write.table(rpkm,file = "rpkm.table",sep = t"); 

# 计算 相关 系数 。 

cor table = cor(rpkm); 

# 输出 为 表 的 格式 。 


write.table(cor table,file = "correlations.table",sep = "Xt"); 


6.4.5 线性 相关 系数 


在 基因 芯片 研究 中 ， 一 类 很 重要 的 质量 控制 指标 就 是 利用 芯片 之 间 的 相互 关系 来 简单 
判别 实验 结果 的 好 坏 ， 这 类 指标 包括 聚 类 分 析 、 主 成 分 分 析 和 相关 系数 矩阵 〈 见 5.3.2)。 本 
章 6.3.1 提 到 了 RNA-seq 实验 可 重复 性 非常 高 ， 同 类 样本 间 的 相关 系数 往往 能 够 达到 0.9 以 
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上 。 因 此 用 相关 系数 来 对 全 部 样品 进行 分 析 ， 是 质量 控制 中 非常 关键 的 一 步 。 计 算 相 关系 
数 矩 阵 ， 可 以 使 用 标准 化 之 前 的 Raw count 数据 ， 也 可 以 使 用 标准 化 之 后 的 数据 (例如 
RPKM)。 菊 花 转 录 组 使 用 了 RPKM 数据 计算 相关 系数 〈 见 例 6-9)， 从 图 6-12 中 ， 可 以 看 
到 处 理 组 (T) 6 个 样品 之 间 相 关系 数 都 在 0.96 之 上 (图 6-12 左 侧 大 黑 框 内 ), 对 照 组 (CK) 
6 个 样品 之 间 相 关系 数 都 在 0.99 之 上 (图 6-12 右 侧 大 黑 框 内 )， 而 组 间 相 关系 数 普遍 小 于 
0.6， 说 明了 实验 结果 非常 可 靠 。 


T! T2 T3 T1-1 T21 T3-1 cea cia CK3 CK1-1 CI2-1 CK3-1 





6.5 RNA-seq 数据 分 析 


总 体 上 ，RNA-seq 数据 分 析 和 基于 表达 谱 芯片 的 数据 分 析 非 常 相似 ， 特 别 是 在 基因 表 
达 差 异 的 显著 性 分 析 这 方面 ， 流 程 基本 相同 ， 不 同 的 地 方 只 在 确定 差异 表达 基因 方面 。 因 
此 ，RNA-seq 表达 差异 分 析 这 部 分 只 需要 讲解 如 何 利用 Bioconductor 软件 包 来 确定 差异 表 
达 基 因 ， 后 续 的 GO 或 者 通路 分 析 完 全 可 以 参考 第 五 章 的 基因 芯片 部 分 内 容 。 


6.5.1 基因 表达 差异 的 显著 性 分 析 


数据 标准 化 属于 RNA-seq 预 处 理 范围 ， 但 是 由 于 很 多 数据 处 理 软件 都 自 带 了 标准 化 的 
算法 和 函数 ， 这 里 需要 再 介绍 一 下 。RPKM 使 用 了 每 个 样本 中 可 以 比 对 到 转录 组 的 总 读 段 
数 和 转录 本 长 度 来 标准 化 每 个 转录 本 的 读 段 计 数 。 由 于 表达 差异 分 析 只 对 比 不 同样 本 之 间 
的 同一 个 转录 本 ， 这 就 不 需要 考虑 转录 本 长 度 ， 而 只 考虑 总 读 段 数 。 一 个 最 简单 的 思想 就 
是 ， 样 本 测序 得 到 的 总 读 段 数 《实际 上 是 可 以 比 对 到 转录 组 的 总 读 段 数 ) 越 多 ， 则 每 个 基 
因 分 配 到 的 读 段 越 多 。 因 此 最 简单 的 标准 化 因子 就 是 总 读 段 数 ， 用 总 读 段 数 作 标准 化 的 前 
提 是 大 部 分 基因 的 表达 是 非 显 著 变 化 的 ， 这 与 基因 芯片 中 的 基本 假设 相同 。 但 是 实际 工作 
中 发 现 很 多 情况 下 总 读 段 数 主要 是 一 小 部 分 大 量 表 达 的 基因 贡献 的 ， 如 果 这 小 部 分 基因 是 
差异 表达 的 ， 而 不 是 稳定 不 变 的 ， 就 会 极 大 地 影响 整体 结果 。Bullard 等 (2010) 在 比较 了 
几 种 标准 化 方法 的 基础 上 发 现在 每 个 泳 道内 使 用 非 零 计数 分 布 的 上 四 分 位 数 〈Q75 旬 ) 作为 
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标准 化 因子 是 一 种 更 稳健 的 选择 ， 总 体 表现 是 所 研究 方法 中 最 优 的 。Bioconductor 的 edgeR 
包 和 DESeq 包 分 别提 供 了 上 四 分 位 数 和 中 位 数 来 作为 标准 化 因子 ， 就 是 出 自 这 个 思想 。 
edgeR 提供 了 三 种 标准 化 算法 分 别 是 M 值 加 权 截 断 均 值 法 (Weighted trimmed mean of 
M-values, TMM) ， 相 对 对 数 表达 值 法 (Relative log expression, RLE) 和 上 四 分 位 法 
(Upperquartile)， 其 中 TMM 是 默认 设 定 。 这 些 标 准 化 方法 大 同 小 异 ， 其 基本 思想 就 是 去 除 
表达 值 较 大 的 少数 基因 的 影响 ， 而 保留 大 部 分 没有 显著 变化 的 基因 。 

由 于 基因 芯片 检测 杂交 的 荧光 强度 信号 是 连续 值 , 往往 假设 它 符 合 正 态 分 布 ( 见 5.4.1); 
而 对 于 RNA-seq 测量 的 离散 值 ， 最 简单 的 假设 就 是 二 项 分 布 。 由 于 RNA-seq 读 段 数量 非常 
大 ， 而 且 一 条 读 段 映射 到 一 个 给 定 基 因 的 概率 足够 小 ， 在 实际 计算 中 ， 二 项 分 布 常用 它 的 
极限 形式 泊 松 (Poisson) 分 布 来 代替 。 泊 松 分 布 的 一 个 性 质 是 其 方差 等 于 均值 ， 但 是 当 有 
生物 学 重复 时 ，RNA-seq 数据 会 表现 出 比 泊 松 分 布 期 望 的 更 高 的 变异 性 ， 对 相当 多 的 基因 
来 说 方差 可 能 超过 均值 ， 这 种 现象 叫做 过 离散 。 对 过 离散 数据 ， 基 于 泊 松 分 布 假设 的 分 析 
容易 因 低估 不 同 生物 学 重复 带 来 的 取样 误差 而 得 到 过 多 的 假 阳 性 的 差异 表达 基因 。 为 了 多 
许 额 外 的 变异 ， 一 个 自然 的 想法 就 是 给 均值 加 上 一 个 散 度 参 数 ， 以 使 方差 可 以 大 于 均值 。 
于 是 作为 泊 松 分 布 的 推广 ， 又 引入 了 负 二 项 分 布 (negative binomial distribution, NB) 来 
作为 基本 假设 ， 负 二 项 分 布 是 当前 基因 表达 差异 的 显著 性 分 析 中 的 最 常用 假设 。 基 于 负 二 
项 分 布 假设 ，Bioconductor 提供 了 两 个 软件 包 edgeR、DESeq 来 进行 基因 表达 差异 的 显著 性 
分 析 ， 它 们 是 当前 此 领域 最 主要 的 分 析 程序 。 在 edgeR 中 ， 对 于 任 一 样品 i 中 的 任 一 个 基因 
g， 假 设 它 的 分 布 符合 负 二 项 式 分 布 ( 见 公式 6-5)。 


Y,7 NB(M;p,.6,) 公式 6-5 


其 中 Mi 是 样品 i 中 的 读 段 总 数 〈 实 际 中 是 可 以 比 对 上 的 读 段 总 数 );， 中 。 就 是 基因 g 的 
散 度 ; py 是 基因 g 在 某 个 实验 条 件 j 下 或 分 组 j 中 的 相对 丰 度 。 第 g 个 基因 在 某 个 实验 条 件 
j 下 或 分 组 j 中 ，NB 分 布 的 均值 为 hgj=pgjMi， 方 差 为 hg(1+hgj gg)， 对 于 表达 差异 分 析 ， 需 
要 估计 的 是 散 度 由。。 当 中 。 趋 近 于 0 的 时 ， 负 二 项 式 分 布 退化 为 泊 松 分 布 ， 这 时 方差 退化 为 
第 1 项 ua， 一 般 认 为 来 自 技术 重复 ， 方 差 的 第 2 项 hi bs 来 自生 物 学 重复 。 

由 于 RNA-seq 数据 分 析 往 往 只 有 很 小 的 样本 量 (例如 3 个 处 理 加 3 个 对 照 ), 为 每 个 基 
因 估 计 一 个 散 度 非常 困难 。 如 果 假 定 所 有 的 基因 散 度 相同 ， 就 可 以 估计 一 个 公共 散 度 。 这 
个 公共 散 度 就 可 以 使 用 所 有 基因 表达 的 数据 来 估计 ， 能 够 大 大 提高 估计 的 精度 。 更 好 的 策 
略 是 允许 不 同 的 基因 有 不 同 的 个 体 散 度 ， 而 这 些 个 体 散 度 的 估计 可 以 用 一 些 合适 的 统计 方 
法 借助 基因 间 的 信息 来 改进 。 软 件 包 edgeR、DESeq 都 有 各 自 的 散 度 估计 方法 ,相对 于 edgeR， 
DESeq 默认 设置 采取 了 最 保守 的 估计 策略 ， 即 选取 每 个 基因 的 经 验 散 度 和 拟 合 得 到 的 散 度 
趋势 线 取 值 中 最 大 的 作为 最 终 的 散 度 估 计 值 ,因此 DESeq 往往 选 出 更 少 的 差异 表达 基因 ( 转 
录 本 )。DESeq 由 于 可 以 利用 同一 个 样本 基因 间 的 数据 估计 散 度 ， 而 不 一 定 需 要 重复 样本 来 
计算 ， 因 此 可 以 直接 用 于 无 重复 实验 (例如 1 个 处 理 加 1 个 对 照 ) 的 表达 差异 分 析 。 前 期 
研究 表明 ， 软 件 包 edgeR、DESeq 总 体 上 表现 差不多 ， 没 有 哪个 更 优越 。 在 菊花 转录 组 研究 
中 ， 考 虑 到 DESeq 包 代 码 更 简洁 ， 因 而 使 用 该 包 来 确定 差异 表达 基因 〈 见 例 6-10， 注 意 需 
要 与 例 6-9 一 起 运行 )。 
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例 6-10: 
# 安装 并 加 载 所 需 及 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("DESeq"); 
library(DESeq); 
# 只 用 100bp 的 样品 进行 计算 ，51bp 的 样品 不 选 。 
counts <- cbind(counts[, 1:3],counts[, 7:9]); 
# 设置 每 个 样品 的 实验 条 件 ，3 个 处 理 ，3 个 对 照 。 
conditions-c(rep(" T", 3),rep(" CK", 3)); 
# 创建 CountDataSet 对 象 (DESeq 包 的 核心 数据 结构 )。 
cds <- newCountDataSet(counts, conditions); 
# 估计 每 个 样本 的 Size Factor， 标 准 化 ， 标 准 化 后 数据 存 于 对 象 cds。 
cds <- estimateSizeFactors(cds); 
# 显示 每 个 样本 的 Size Factor， 这 一 步 可 以 跳 过 去 。 
sizeFactors(cds); 
# 散 度 估计 。 
cds <- estimateDispersions(cds, method = "per-condition", sharingMode="maximum"); 
# 显示 散 度 ， 这 一 步 可 以 跳 过 去 。 
dispTable(cds); 
# 检验 "TCK" 差 异 ， 结 果 存 入 对 象 et。 
et «- nbinomTest(cds, "T", "CK"); 
# 输出 表达 差异 分 析 的 结果 。 
write.table(et,file = "T-CK.table",sep = X"); 
# 查看 对 象 cds 的 内 容 。 
cds 
CountDataSet (storageMode: environment) 
assayData: 98180 features, 6 samples 
element names: counts 
protocolData: none 
phenoData 
sampleNames: T1 T2 ... CK3 (6 total) 
varLabels: sizeFactor condition 
varMetadata: labelDescription 
featureData 
featureNames: UN00001 UNO00002 ... UN98180 (98180 total) 
fvarLabels: disp CK disp T 
fvarMetadata: labelDescription 
experimentData: use 'experimentData(object)' 
Annotation: 
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例 6-10， 是 使 用 DESeq 包 分 析 2 个 条 件 下 3 次 生物 学 重复 的 基因 差异 表达 的 完整 程序 
代码 。 其 中 有 三 点 需要 特别 注意 : (DCountDataSet 是 DESeq 的 核心 数据 结构 ， 它 包括 了 从 
样本 信息 到 所 有 基因 表达 值 等 各 类 重要 信息 ; @ 散 度 估计 函数 estimateDispersions 有 2 个 重 
要 参数 需要 设 定 ;，@@ 如 何 读 懂 最 后 输出 的 结果 文件 。 

散 度 估计 函数 是 整个 分 析 的 核心 ， 它 有 2 个 重要 参数 即 “method” 和 “sharingMode”， 
其 设 定 对 结果 影响 较 大 。“method” 提 供 了 4 种 方式 从 基因 表达 数据 中 来 估计 每 个 基因 ( 转 
录 本 ) 各 自 的 经 验 散 度 :“blind” 表 示 不 区 分 条 件 ， 从 所 有 条 件 下 的 所 有 的 样品 数据 中 估计 
一 个 统一 的 经 验 散 度 用 于 各 个 实验 条 件 ， 这 个 方法 特别 适合 无 生物 学 重复 的 情况 ， 一 个 极 
端的 情况 就 是 一 个 处 理 和 一 个 对 照 〈 俗 称 1 对 1);“pooled” 只 用 有 生物 学 重复 条 件 下 的 样 
品 数据 来 估计 一 个 统一 经 验 的 散 度 用 于 各 个 实验 条 件 , 假如 处 理 组 和 对 照 组 是 3 对 1， 就 用 
3 个 处 理 组 的 数据 来 估计 散 度 ;“pooled-CR” 使 用 了 瑞 德 考 克 斯 调整 的 轮廓 似 然 (Cox-Reid 
adjusted profile likelihood，CR-APL) 最 大 化 方法 来 估计 经 验 散 度 ;“per-condition” 是 真正 
有 生物 学 重复 的 散 度 估计 方法 ， 它 为 每 一 个 实验 条 件 用 其 全 部 样品 数据 估计 一 个 经 验 散 度 。 
“blind” 和 “per-condition” 是 最 常用 的 方法 ， 前 者 处 理 无 生物 学 重复 的 情况 ， 后 者 处 理 有 生 
物 学 重复 〈 最 低 为 3 次 ) 的 情况 。 由 于 实验 重复 严重 不 足 ， 散 度 估 计 的 变异 性 要 大 于 真实 
情况 ， 一 个 简单 的 办 法 就 是 利用 基因 间 的 关系 信息 来 拟 合 一 条 散 度 -均值 平滑 曲线 ， 以 尽量 
减少 散 度 估计 的 变异 性 (图 6-13)。 这 样 ， 每 个 基因 就 得 到 了 2 个 散 度 估计 值 ， 一 个 是 来 自 
实际 数据 的 经 验 散 度 〈 图 6-13 黑色 圆 点 )， 另 外 一 个 是 拟 合 曲线 上 的 散 度 值 〈 图 6-13 红色 
曲线 )。 因 此 ，“sharingMode” 提 供 了 3 种 方法 来 确定 究竟 最 后 用 哪个 散 度 :“gene-est-only” 
表示 使 用 各 自 的 经 验 散 度 ;“fit-only” 表 示 使 用 拟 合 曲 线 上 的 值 ;“maximum” 表 示 取 前 2 
种 散 度 之 间 的 最 大 值 ， 这 是 最 保守 的 估计 默认 设置 )， 这 就 是 为 什么 DESeq 找到 的 差异 表 
达 基 因 相对 较 少 的 原因 。 菊 花 转录 组 在 两 个 实验 条 件 下 各 有 3 次 生物 学 重复 (简称 3 对 3)， 
因此 采用 了 “per-condition” 来 估计 经 验 散 度 ， 而 且 最 后 选取 了 “maximum” 方 式 来 使 用 两 
种 散 度 ， 即 选取 图 6-13 红色 曲线 以 上 部 分 。 
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rowMeans(counts(cds, normalized = TRUE)) 
图 6-13” 拟 合 的 散 度 -均值 曲线 
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负 二 项 分 布 检验 函数 nbinomTest 检验 两 个 条 件 下 基因 表达 变化 是 否 显著 ， 最 终 的 结果 
输出 是 一 个 包括 9 列 数据 的 表格 ， 列 名 比 内 容 向 左 一 位 〈 图 6-14)。 第 1 列 是 序列 编号 ， 第 
2 列 “id” 是 转录 本 名 称 ; 第 3 列 “baseMean” 是 归 一 化 后 该 转录 本 在 所 有 样品 中 的 表达 均 
fH; 第 4 列 “baseMeanA” 是 归 一 化 后 该 转录 本 在 第 1 个 条 件 下 的 表达 均值 ; 第 5 列 
“baseMeanB ”是 归 一 化 后 该 转录 本 在 第 2 个 条 件 下 的 表达 均值 ; 第 6 列 “foldChange” 是 倍 
数 变化 ， 即 2 个 条 件 下 均值 之 比 ， 来 自 第 5 列 除 以 第 4 列 ; 第 7 列 “log2FoldChange” 是 以 
2 为 底 的 对 数 化 的 倍数 变化 ; 第 8 列 “pval” 是 负 二 项 分 布 检 验 得 到 的 P 值 ; 第 9 列 “padj” 
是 调整 后 的 P fH. AREARE, E "padj" WEA 0.05 Ek 0.01, BEA E 
的 转录 本 都 可 以 看 作 差异 表达 基因 。 








id baselean baselleanA baselleanB foldChange log2FoldChange  pval padj 

1 UNOO001  180.43947 201.234264 159.6446807 0.793327527 -0.33401 0.052238 0.160899 
2 UNO0002 32.723843 29.7532629 35.69442334  1.199680971 0.262651 0.484324 0. T483T8 
3 UNO0003 13.085351 10.1300592 16.04064331  1.583469841 0.663089 0.250736 0.503569 
4 UN00004 7. 0610443 4. 42191556 9.70017297 2.193658573 1.133339 0.186554 0.413111 
5 UNOQ005 18.897695 22.6230211 15. 17236893 0.670660602 -0.57635 0.148967 0.353033 
6 UN00006  245.55267 272.537664 218.567672 0.801972354 -0.31838 0.047285 0.148448 
T UN00007 225.69763 249.702075 201.6931756 —0.807735279 -0.30805 0.057926 0.174511 
8 UNOO008 528. 89322 476.367196 581.419248 1.22052747 0.287505 0.05309 0.163047 


9 UNOO009 223. 94955 232. 080139 215.8189603 0. 929932916 -0.1048 0.470189 0.73545 
10 UN00010 90.107168 82.7033048 97.51103029 1.179046358 0.23762 0.29273 0.557116 
11 UNOO011 17.352459 21.0500855 13.654833 0.648683019 -0.62441 0.142212 0. 341776 
12 UN00012 84.236801 78.5540999 89. 91950131 1.144682473 0.194947 0. 387058 0.659425 
13 UNO0013 84.214157 81.1373676 87. 29094595 1.075841484 0.105466 0.673434 0.88505 
14 UN00014 12. 33301 14.6848309 9. 981188627 0.679693805 -0.55704 0.269647 0.528122 
15 UN00015 369.2085 449. 410006 289. 0069947 0. 643080908 -0.63693 3.22E-05 0. 000247 








图 6-14 ”菊花 转录 组 差异 表达 分 析 结 果 
6.5.2 RNA-seq 数据 的 其 他 分 析 


除了 差异 表达 分 析 ，RNA-seq 数据 分 析 还 包括 转录 组 的 注释 、SNP 或 杂 合 位 点 分 析 和 
RNA 编辑 分 析 等 。 有 参考 序列 的 转录 组 注释 可 以 直接 使 用 参考 序列 的 注释 ， 没 有 参考 序列 
(从 头 组 装 的 ) 转录 组 一 般 使 用 Blast2go 等 软件 注释 到 NCBI NR 数据 库 上 ， 这 里 不 再 详 述 。 
无 参 的 SNP 或 杂 合 位 点 分 析 ， 主 要 是 将 所 有 读 段 全 部 比 对 到 组 装 得 到 的 转录 组 上 ， 然 后 根 
据 所 有 转录 本 每 个 位 点 上 的 碱 基 种 类 比例 ， 来 鉴定 该 位 点 是 纯 合 还 是 杂 合 。 这 部 分 要 注意 
的 是 计算 碱 基 种 类 比例 前 要 去 除 重复 读 段 (Duplicate reads)， 而 且 还 要 考虑 测序 及 比 对 错误 
等 因素 带 来 的 影响 。 由 于 RNA-seq 数据 提供 了 较为 丰富 的 序列 信息 ， 还 可 以 进行 多 种 其 他 
分 析 ， 例 如 鉴定 转录 因子 和 非 编码 RNA， 以 及 使 用 链 特 异性 的 RNA-seq 数据 鉴定 反 义 基因 
等 。 由 于 这 些 涉 及 更 多 的 生物 学 背景 ， 这 里 不 再 详 述 。 在 RNA-seq 数据 分 析 过 程 中 ， 还 有 
大 量 的 统计 和 画图 工作 ， 这 些 都 可 以 利用 R 和 Bioconductor 各 类 包 编 程 解决 。 最 后 用 一 个 
统计 转录 组 长 度 分 布 的 小 程序 〈 例 6-11) 结束 本 章 内 容 。 
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例 6-11: 

# 指定 工作 目录 ， 该 目录 包括 所 有 的 数据 文件 。 
setwd("C:/workingdirectory"); 

# 安装 并 加 载 所 需 RO. 

library(ShortRead); 

library(ggplot2); 

# 指定 转录 组 数据 文件 名 称 。 

filez"Trinity.fasta"; 

# 读 入 fasta X fT. 

seqs <- readFasta(file); 

# 从 网 上 下 载 程序 源 代码 文件 contigStats.R。 
source("http://faculty.ucr.edu/-tgirke/Documents/R. BioCond/My. R. Scripts/contigStats.R"); 
8 统计 长 度 分 布 等 信息 。 

N <- list(seqs-width(seqs)) ; 

reflength <- sapply(N, sum) ; 

contigStats(NZN, reflength-reflength, style-"ggplot2"); 
stats <- contigStats(N-N, reflength-reflength, style-"data"); 
# 显示 统计 结果 。 

stats[["Contig_Stats"]]; 

# 输出 统计 结果 。 


write.table(t(stats[["Contig Stats"]]).filez"unigenes.dis"); 
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7.1 R 的 高 级 语法 


7.1.1 数据 类 型 及 相互 转换 


R 语言 数据 类 型 有 两 种 : 基本 数据 类 型 和 复合 数据 类 型 〈 图 7-1) 





图 7-1 R 数 据 类 型 


R 编程 很 大 的 一 部 分 工作 就 是 各 种 变量 类 型 的 相互 转换 ， 以 满足 将 要 调用 的 函数 的 需 
要 。R 函数 只 能 接受 指定 数据 类 型 的 变量 ， 否 则 函数 不 能 执行 ， 并 报错 。 可 以 用 is.* 函数 
来 判断 数据 是 否 属于 某 种 类 型 ， 不 同类 型 之 间 可 以 通过 as.* 函数 转换 ， 这 里 的 “*” 表 示 某 
种 数据 类 型 CI 7-1)。 


(1) 基本 数据 类 型 及 相互 转换 
基本 数据 类 型 包括 普通 和 特殊 向 量 ， 后 者 可 以 看 作 是 前 者 的 特例 。 向 量 是 相同 类 型 的 
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元 素 组 成 的 有 序 集合 ， 这 个 “ 序 ” 体 现 为 可 以 通过 下 标 索 引 来 访问 集合 中 的 元 素 。 普 通 向 
量 根据 其 组 成 元 素 的 不 同 ， 分 为 六 种 : 整数 型 (Integer)、 实 数 型 (Double)、 24A (Logical), 
字符 型 (Character) & XU (Complex) 以 及 原始 型 (Raw)。 整 数 型 和 实数 型 统称 为 数值 
型 (Numeric)，R 的 字符 型 向 量 的 元 素 可 以 是 字符 或 者 字符 串 〈 见 例 7-1)。 


例 7-1: 
Vectorl = c(0,1,2,1,-1) # 生成 一 个 数值 向 量 。 
Vectorl # 查看 向 量 内 容 。 


[1] 0 1 2 1-1 

is.numeric(Vectorl) # 判断 是 否 为 数值 向 量 。 

[1] TRUE 

as.character(Vectorl) # 转化 为 字符 向 量 。 

[1]"Q" pes wow ps wp 

data.class(Vectorl) # 查看 变量 类 型 。 

[1] "character" 

as.logical(Vector1) # 转化 为 逻辑 向 量 ， 只 有 0 转换 为 FALSE。 
[1] FALSE TRUE TRUE TRUE TRUE 


(20 两 种 特殊 类 型 的 向 量 


R 语言 设 置 了 两 种 特殊 类 型 的 向 量 , 分 别 是 因子 向 量 (Factor vector) 和 索引 向 量 (Index 
vector)， 它 们 的 类 型 、 模 式 和 存储 模式 与 整 型 向 量 一 致 。 
因子 向 量 对 向 量 中 的 离散 元 素 进 行 分 组 : 相同 的 归 为 一 组 ， 每 组 为 一 个 水 平 CLeveD, 
相当 于 统计 中 的 分 类 变量 。 因 子 向 量 分 为 无 序 和 有 序 两 种 ， 它 们 主要 在 一 些 统计 分 析 中 起 
作用 。 





例 7-2: 

Vectorl = c(0,1,2,1,-1) # 生成 一 个 数值 向量 。 
Vectorl«-as.factor(Vectorl) # 数值 向 量 转换 成 为 因子 向 量 。 
print(Vector1) # 显示 同 量 内 容 。 

[1]0 12 1 -l 8 这 个 向 量 包括 5 个 元 素 ， 属 于 4 个 水 平 。 
Levels: -1012 

levels(Vector1) # 也 可 以 只 显示 因子 向 量 的 水 平 。 


[]"-1""O" "I" "2" 

Vectorl«-ordered(Vectorl) # 将 因子 向 量 转换 成 有 序 因子 向 量 。 
print(Vectorl) 

uo 1 2 1 -1 

Levels: -1 «0« 1 «2 8 4 个 水 平 从 小 到 大 排序 。 
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索引 向 量 (Index vector)， 也 叫 下 标 向 量 ， 它 的 主要 作用 就 是 数据 选择 。 例 如 可 以 在 
向 量 名 后 面 的 方 括号 中 加 入 索引 向 量 以 得 到 向 量 的 子 集 。 索 引 向 量 可 以 是 正 整数 向 量 、 负 
整数 向 量 、 逻 辑 向 量 和 字符 串 癌 量 。 


例 7-3: 

Vectorl 2c(0,1,22,1,-1) 4 生成 一 个 数值 向 量 。 

Vectorl[2] # 取出 向 量 的 第 2 个 元 素 。 

[1]1 

Vectorl[2:4] st 在 索引 号 中 间 加 冒号 构成 索引 向 量 ， 以 取出 第 2 到 第 4 个 元 素 。 
[1]121 

Vectorl[-4] # 负 整 数 向 量 表示 不 要 某 个 元 素 。 

[1] 0 1 2-1 

Vectorl[-(1:2)] # 负 整 数 向 量 表示 不 要 前 2 个 元 素 。 

[1] 21-1  # 只 保留 了 后 3 个 元 素 。 


当 用 逻辑 向 量 来 作为 索引 向 量 时 ， 可 以 实现 复杂 的 数据 选择 功能 。 


例 7-4: 
Vector2<-c (0, 1, 2, NA, 4, 5, -1) 8 生成 一 个 数值 向 量 Vector2。 
Vector2[Vector2>0] # 索引 使 用 逻辑 向 量 ， 只 取出 大 于 0 的 元 素 。 

[1] 1 2NA 4 5 
Vector2[!is.na(Vector2)] # 选取 Vector2 中 不 为 “NA” 的 值 。 
[1] 0 1 24 5 -I 
lis.na(Vector2) # WgoRÍEALESIM HERE [n] Te 
[1] TRUE TRUE TRUE FALSE TRUE TRUE TRUE 
Vector2[(lis.na( Vector2)) & Vector2 »0] # 同时 满足 两 个 条 件 的 元 素 。 
[111245 


(3) 复合 数据 类 型 


为 了 满足 数据 分 析 的 需要 ，R 还 提供 了 更 为 复杂 的 数据 结构 ， 即 复合 数据 类 型 。 它 也 是 
由 向 量 组 成 , 主要 包括 四 种 : 数组 (Array)、 矩阵 (Matrixz)、 列 表 (List) 和 数据 框 (Data.frame )。 
数组 和 和 矩 阵 的 类 型 就 是 它们 所 包括 向 量 的 元 素 的 类 型 ， 列 表 和 数据 框 则 都 是 列表 类 型 。 

MA (Aray) 是 一 种 多 维 的 向 量 ， 和 矩阵 (Matrix〉 是 特殊 的 数组 。 数 组 的 维 数 则 可 以 
从 1 到 nn>=2)， 和 拢 阵 的 维 数 固定 为 2。 在 大 部 分 情况 下 ， 两 者 没有 差别 ， 除 了 某 些 特殊 情 
况 ， 例 如 和 矩阵 有 和 矩阵 运算 ， 数 组 则 没有 。 


例 7-5: 
a=array(1:12,dim=c(3,4)) 
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print(a) 
L1] L2] [,3] L4] 

[1] 1 4 7 10 

[2,] 2 5 8 l 

[3.] 3 6 9 12 

上 例 用 一 个 有 12 项 元 素 的 向 量 构建 了 一 个 3 行 4 列 的 数组 。 数 组 元 素 可 以 通过 数组 名 
及 其 后 方 括号 中 用 逗号 隔 开 的 下 标 访问 ， 下 标 数量 等 于 数组 的 维度 。 

a[2,2] # 提取 2 维 数组 a 中 的 ， 第 2 行 第 2 列 元 素 。 

[1] 5 

也 可 以 提取 某 一 行 或 某 一 列 中 的 一 个 或 多 个 元 素 。 例 如 要 提取 第 2 行 第 1. 2 列 的 元 素 : 

a[2,1:2] 

[1]25 

列表 Cist): 可 以 看 作 是 R 对 象 〈 元 素 ) 的 集合 ， 这 些 元 素 可 以 是 数据 也 可 以 是 函数 
《本 书 不 涉及 此 种 情况 )。 列 表 中 含有 的 数据 结构 可 以 是 任意 类 型 〈 向 量 、 数 组 、 矩 阵 或 列 
表 等 )， 并 不 要 求 维 数 相同 ， 是 最 为 灵活 的 数据 结构 。 

数据 框 (Data.frame): 数据 框 是 列表 的 特殊 形式 ， 与 列表 的 区 别 有 主 要 两 点 : 它 的 元 
素 不 能 包括 函数 ， 所 包括 的 数据 类 型 〈 向 量 、 数 组 、 和 矩阵 或 列表 等 ) 必须 维 数 〈 列 ) 相同 。 
数据 框 是 处 理 数 据 最 常用 也 是 最 佳 的 方式 ， 一 般 情 况 下 ， 它 的 每 一 行 是 一 个 数据 样本 ， 每 
一 列 是 一 个 特征 (变量), 与 关系 数据 库 中 的 表 的 概念 类 似 。 R 语言 有 很 多 函数 可 以 很 方便 
地 直接 处 理 这 些 “ 表 ” 最 常见 的 创建 数据 框 的 方式 是 调用 函数 read.table 读 入 外 部 数据 ， 
数据 框 中 的 字符 向 量 将 被 强制 转化 为 因子 向 量 。 数 据 框 兼 有 和 矩阵 和 列表 的 性 质 ， 用 dim Pf 
数 可 以 得 到 数据 框 的 行 和 列 ， 而 列表 的 dim 是 NULL。 下 面 根据 一 个 内 置 的 总 尾 花 数据 集 
iris 来 介绍 数据 框 的 一 些 特 点 。 


例 7-6: 
data(iris); 
head(iris); 

SepalLength ^ Sepal.Width Petal.Length ^ Petal.Width ^ Species 
1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 
4 4.6 3.1 1.5 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 


从 例 7-6 结果 中 可 以 看 到 ，iris 数据 集中 每 行 均 表示 一 个 花 的 样品 ， 而 各 列 则 反映 了 花 
的 各 种 特征 :“sepal.length” 和 “sepal.width” 分 别 表示 葡 片 的 长 度 和 宽度 ;“petal.length” 
和 “petal.width” 分 别 表示 花 办 的 长 度 和 宽度 ， 而 “species” 则 表示 花 的 种 属 。 前 四 列 为 数 
值 向 量 ， 最 后 一 列 为 表示 类 别 的 因子 向 量 。 
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71.2 向 量 运算 


R 语言 的 基本 运算 是 向 量 运 算 。 向 量化 计算 不 但 使 代码 更 为 简洁 、 高 效 和 易于 理解 ， 而 
且 更 重要 的 是 ， 由 于 向 量 运算 避免 使 用 循环 ， 而 大 大 提高 了 计算 速度 。 与 此 相反 ,，R 中 的 循 
环 操作 却 是 非常 低 效 的 。 因 此 应 该 尽 可 能 采用 向 量化 运算 ， 避 免 使 用 循环 。 

tj Matlab 的 向 量 运算 不 同 , R 的 向 量 运算 不 需要 参与 运算 的 向 量 长 度 相 同 , 如 果 长 度 
AR, ZAAR (WE) 将 与 参与 运算 的 最 长 向 量 取 齐 。 运 算 中 ， 较 短 的 向 量 会 根据 它 的 
长 度 被 重复 使 用 若干 次 (不 一 定 是 整数 次 ) ， 直 到 与 长 度 最 长 的 向 量 相 匹配 。 


例 7-7: 

x«-c (0, 1, 2, NA, 4, 5, -1) # 生成 一 个 7 个 元 素 的 数值 向 量 。 

x[1:10] # 选择 x 的 前 10 个 元 素 ， 不 足 部 分 以 NA 补 齐 。 

[1] 0 1 2NA 4 S-INANANA # 结果 向 量 的 长 度 和 索引 向 量 完全 一 致 。 
x/2 # 分 母 与 分 子 维 数 不 同 ， 较 短 的 被 重复 使 用 。 

[1] 0.0 05 10 NA 20 2.5-0.5 


R 还 包含 了 许多 高 效 的 向 量 运算 函数 ,这 也 是 它 不 同 于 其 他 软件 的 一 个 显著 特征 。R 中 
的 apply 族 函 数 专门 负责 向 量化 运算 ， 它 主要 包括 apply. sapply. lappy 和 tapply 等 函数 ， 
这 些 函 数 在 不 同 的 情况 下 能 高 效 地 完成 复杂 的 数据 处 理 任 务 ， 但 角色 定位 又 有 所 不 同 。 

apply 函数 的 处 理 对 象 是 矩阵 或 数组 ， 它 逐 行 或 逐 列 地 处 理 数据 ， 其 输出 的 结果 是 一 个 
向 量 或 和 矩阵。 下面 的 例子 即 对 iris 数据 集 前 4 列 按 列 求 均值 。 要 注意 的 是 与 其 他 函数 不 同 ， 
apply 函数 并 不 能 明显 改善 计算 效率 ， 因 为 它 本 身 内 置 为 循环 运算 。 


apply(iris[,1:4], 2, mean) 
Sepal.Length Sepal.Width Petal.Length ^ Petal.Width 
5.843333 3.057333 3.758000 1.199333 


lappy 的 处 理 对 象 是 向 量 、 列 表 或 其 他 对 象 ， 它 将 处 理 对 象 中 的 每 个 元 素 作 为 参数 ， 输 
入 到 指定 函数 中 处 理 ， 生 成 的 结果 的 格式 为 列表 。 作 为 特殊 的 列表 ， 数 据 框 的 列 看 作 列表 
中 的 元 素 处 理 。 下 面 的 例子 即 对 iris 数据 的 前 4 列 ， 按 列 算出 中 位 数 与 标准 差 。 


lapply(iris[,-5], FUN = function(x) list(median = median(x), sd = sd(x))) 
$Sepal.Length 

$Sepal.Length$median 

[1] 5.8 


$Sepal.Length$sd 
[1] 0.8280661 
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$Sepal. Width 
$Sepal.Width$median 
[1] 3 


$Sepal.Width$sd 
[1] 0.4358663 


$Petal.Length 
$Petal.Length$median 
[1] 4.35 


$Petal.Length$sd 
[1] 1.765298 


$Petal. Width 
$Petal.Width$median 
[1] 1.3 


$Petal.Width$sd 
[1] 0.7622377 


sapply 可 能 是 使 用 最 为 频繁 的 向 量化 函数 了 ， 它 与 lappy 非常 相似 ， 但 其 输出 格式 不 是 
列表 ， 而 是 矩阵 ， 结 果 显 示 一 目 了 然 。 
sapply(iris[,-5], FUN = function(x) listtmedian = median(x), sd = sd(x))) 
SepalLength Sepal.Width Petal.Length Petal.Width 
Median 5.8 3 4.35 1.3 
sd 0.8280661 0.4358663 1.765298 0.76223T'1 


tapply 的 功能 则 又 有 不 同 ， 它 是 专门 用 来 处 理 分 组 数据 的 ， 其 参数 要 比 sapply 多 一 个 ， 
输出 结果 是 数组 格式 。 还 是 以 iris 数据 集 为 例 ， 全 部 数据 可 以 根据 “Species” 列 中 的 三 种 类 
型 分 组 ， 分 别 计算 三 种 花 的 昔 片 宽度 的 均值 。 下 面 代码 还 使 用 了 with 函数 ， 目 的 是 直接 操 
作 数 据 框 中 的 列 名 。 
with(iris, tapply(Sepal.Width, INDEX = Species, FUN = mean)) 
setosa versicolor virginica 
3.428 2:110 2.974 
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与 tapply 功能 非常 相似 的 还 有 aggregate 和 by 函数 , 前 者 的 输出 结果 是 数据 框 格式 ， 后 
者 是 “by” 格 式 。 
with(iris,aggregate(Sepal.Width,by-list(Species), FUN-mean)) 
Group.1 X 
1 setosa 3.428 
2 versicolor 2.770 
3 virginica 2.974 


with(iris,by(Sepal.Width,INDICES-list(Species),FUN-mean)) 
: setosa 

[1] 3.428 

: versicolor 

[1] 2.77 

: virginica 

[1] 2.974 


另外 ,还 有 一 个 非常 有 用 的 函数 replicate,， 它 可 以 将 某 个 函数 重复 运行 N 次 。 下面 的 例 
子 可 以 用 来 生成 较 复 杂 的 随机 数 在 ;建立 一 个 函数 ; 模拟 扔 两 个 角 子 的 点 数 之 和 ; 然后 重 
复 运 行 10 000 次 。 

game <- function() { 

n <- sample(1:6, 2, replace =T) 4 M 2^ 6 ERAM 
return(sum(n)) # R[BIBSATS CT. RROBCZLRU 
) 
result <- replicate(n = 10000, game()) 4 重复 运行 10 000 次 。 


上 面 讲 到 的 几 种 向 量化 函数 可 以 满足 绝 大 多 数 的 应 用 ， 如 果 对 数据 操作 有 更 复杂 的 要 
求 ， 可 以 使 用 reshape2 包 和 plyr 包 中 的 函数 。 


7.1.3 函数 

本 书 1.4.3 讲 到 ， 用 户 可 以 根据 实际 需求 编写 用 户 自 定义 函数 ， 简 称 自 定义 函数 。R 在 
编写 函数 时 ， 与 C/C++ 等 语言 有 很 多 习惯 上 的 不 同 ， 如 无 需 声明 变量 的 类 型 ， 语 句 之 间 可 
以 不 用 “; ”分 市， 直接 使 用 返回 值 等 。 通过 1.4.3 中 的 add.diff 函数 的 定义 看 一 下 这 些 不 同 。 


add.diff <- function (x,y) { 
add«-x +y; # 求 和 运算 。 
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diff <-x-y; # 使 用 “;” 更 规范 。 

c(add,diff); # 直接 使 用 返回 值 ， 不 用 return 函数 。 

} 

函数 内 部 的 变量 叫做 函数 的 参数 ， 又 分 为 虚 参 与 实 参 。 虚 参 出 现在 函数 定义 中 ， 在 整 
个 函数 体内 都 可 以 使 用 ， 离 开 该 函数 则 不 能 使 用 。 实 参 则 出 现在 主 调 函 数 中 ， 进 入 被 调 函 
数 后 ， 实 参 变量 也 不 能 使 用 。 虚 参 和 实 参 的 功能 是 做 数据 传递 。 发 生 函 数 调 用 时 ， 主 调 函 
数 把 实 参 的 值 传送 给 被 调 函数 的 虚 参 ， 从 而 实现 主 调 函数 向 被 调 函数 的 数据 传送 。 函 数 的 
虚 参 完全 是 按 值 传递 的 ， 改 变 虚 参 的 值 不 能 改变 对 应 实 参 的 值 。R 的 函数 调用 非常 灵活 ， 下 
面 是 一 个 常见 的 调用 格式 。 


add.diff(5,3) 

[1] 82 

可 见 ， 在 有 多 个 输入 参数 时 ，R 函数 可 以 根据 参数 顺序 来 确定 输入 值 ， 而 不 需要 指定 虚 
参 的 参数 名 。 有 些 情 况 下 ， 函 数 中 的 参数 可 以 事先 给 一 个 缺 省 值 。 这 样 ， 函 数 在 调用 时 ， 
可 以 给 出 全 部 、 部 分 或 者 不 给 出 虚 参 的 参数 名 。 


add.diff <- function (x=5, y=3) { 
add <-x+y; # 添加 注释 。 
diff<-x-y; ”# 使 用 “; ”更 规范 。 
c(add,diff); # 直接 使 用 返回 值 ， 不 用 return 函数 。 
} 
add.diff() 
[1] 82 
add.diff(5, ) 
[1] 82 
add.diff( ,3) 
[1] 82 
add.diff(x —7, y —3) 
[1] 10 4 
R 也 可 以 从 文件 中 调用 已 定义 的 函数 或 程序 ,该 调用 方式 继承 于 S 语 言 ,使 用 函数 source 
(*CMfilename.r") 即 可 运行 文件 “filename.r” 中 的 程序 。 文 件 名 “fliename” 不 需要 与 其 保 
存 的 函数 的 函数 名 保持 一 致 ,而且 一 个 文件 中 可 以 保存 多 个 函数 ，source 一 次 文件 便 可 调用 
文件 中 所 有 函数 。 如 上 例 ， 函 数 add.diff 可 以 先 保存 为 文件 “add_diffr”， 存 入 指定 工作 目 
录 “C:/workingdirectory” 然后 可 以 运行 下 列 代码 : 


setwd("C:Nworkingdirectory"); 
source("add diff.r"); 
add.diff(5,3) 

[1] 82 
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7.1.4 循环 与 条 件 


循环 是 基本 的 流程 控制 语句 , TE R 语言 中 通常 可 以 用 for EX while 语句 来 控制 循环 。for 
循环 的 基本 格式 如 下 : 

for (n in x) (expr) 

上 面 语句 中 ，n 为 循环 变量 ，x 通常 是 一 个 多 维 向 量 。n 在 每 次 循环 时 ， 从 x 中 顺序 取 
值 , 代 入 到 后 面 的 expr 语句 中 进行 运算 ,下 面 的 例子 即 是 如 何 用 for 循环 计算 30 个 Fibonacci 
数 。 


x «- c(1,1) 
for (i in 3:30) ( 
x[i] <- x[i-1]--x[i-2] 
} 
如 果 不 能 确定 循环 次 数 ， 需 要 用 while 语句 来 控制 循环 : 
while (condition) (expr) 
在 condition 条 件 为 真 时 ， 执 行 大 括号 内 的 expr 语句 。 下 面 的 例子 即 是 以 while 循环 来 
计算 30 个 Fibonacci 数 。 


x <- c(1,1) 
i«-3 
while (i <= 30) ( 
x[i] <- x[i-1]--x[i-2] 
i<-i+1 
} 
条 件 分 支 语句 也 是 R 语言 中 必 不 可 少 的 流程 控制 方法 ， 基 本 格式 为 : 
if (conditon) {expr1 } else {expr2} 
站 语句 用 来 进行 条 件 控 制 ， 以 执行 不 同 的 语句 。 若 condition 条 件 为 真 ， 则 执行 exprl， 
否则 执行 expr2。 下 面 的 一 个 简单 的 例子 是 要 找 出 100 以 内 的 质数 。 
x «- 1:100 
y <- rep(T,100) 
for (i in 3:100) ( 
if (all(17026(2:(i-1))!20))( 
yli] <- TRUE 
} else {y[i] <- FALSE 
} 
} 
print(x[y]) 
[1] 123 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 
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[24] 83 89 97 

在 上 面 例子 里 ，all 函数 的 作用 是 判断 一 个 逻辑 序列 是 否 全 为 真 ，%% 运 算 符 返 回 余 数 。 
在 if/else 语句 中 一 个 容易 出 现 的 错误 就 是 else 没有 放 在 } 的 后 面 ， 例 如 执行 下 面 的 例子 就 会 
出 现 错 误 。 

logic =3 

x«- c(2,3) 

if (logic == 2)( 

y <- x^2 

} 

else { 

y<-x^3 

} 

Show(y) 

除了 常规 的 if/else 条 件 语句 ，R 还 提供 了 简易 的 ifelse 函数 : 

x <- seq(1:5) 

ifelse(x < 3, "T", *F") 

[1] ^T" *T" *F" “F” «p? 

下 面 是 一 个 综合 使 用 循环 和 条 件 的 示例 。 如 果 想 了 解 iris 数据 集中 ， 三 种 类 型 的 花 中 
“setosa” 子 类 花 办 长 度 “petal.L” 的 均值 。 那 么 一 种 方法 就 是 循环 查询 每 个 样本 ,判断 种 类 
是 否 “setosa” 然 后 累积 求 和 。 下 面 的 代码 就 是 用 for 循环 加 上 站 条 件 判 断 实现 的 。 

data(iris) 

x=0 s 初始 化 变量 。 

n=0 

for (i in 1:150) { 

if (iris$Species[i] == 'setosa') { # 判断 Species 是 否 是 ”setosa”。 
n=n+1 
x = x + iris$Petal.Length[i] 
} 


} 
x/n 


[1] 1.462 

上 面 的 代码 中 ， 首 先 对 两 个 变量 初始 化 以 备 循 环 中 使 用 。 接 下 来 的 for 循环 中 的 条 件 
表达 式 前 后 要 用 括号 , 其 中 的 变量 i 表示 从 1 到 150 之 间 变 化 。 之 后 的 循环 代码 段 前 后 要 使 
用 大 括号 。 在 if 条 件 判 断 语 句 中 ，== 和 > 一 样 为 逻辑 判断 符号 ， 判 断 两 边 变量 是 否 相 等 ， 
如 果 为 真 则 执行 后 面 的 代码 段 。 


7.1.5 输入 输出 


输入 输出 在 数据 处 理 中 占有 重要 的 地 位 ,R 语言 中 提供 了 一 些 重 要 的 输入 输出 函数 支持 
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多 种 输入 输出 形式 。 
(1) 读 取 键 盘 输入 


如 果 只 有 很 少 的 数据 量 ， 可 以 直接 用 变量 赋值 的 方式 输入 数据 。 如 果 需 要 交互 方式 ， 
可 以 使 用 readline 函数 输入 单个 数据 , 但 要 注意 其 默认 输入 格式 为 字符 型 。 不 加 参数 的 scan 
函数 中 可 以 用 手动 输入 数据 ， 如 果 加 上 文件 名 则 是 从 文件 中 读 取 数据 。 


(2) 读 写 表格 文件 


读 取 本 地 表格 文件 是 最 常用 到 的 功能 , R 的 主要 函数 是 read.table。 函数 的 file 参数 设 定 
了 文件 路 径 ， 要 注意 在 Windows 环境 下 ,路径 中 和 斜 杠 的 正确 用 法 (如 “C:/data/sample.txt”); 
header 参数 设 定 是 否 带 有 表 头 ; sep 参数 设 定 了 列 之 间 的 间隔 方式 。 该 函数 读 取 数 据 后 将 存 
为 数据 框 格式 ， 而 且 所 有 的 字符 将 被 转 为 因子 格式 ， 如 果 想 保留 为 字符 格式 ， 可 将 参数 
stringsAsFactors 设 为 FALSE。 与 之 类 似 的 函数 是 read.csv 专门 用 来 读 取 csv 格式 。write.table 
与 write.csy 函数 是 对 应 的 输出 函数 。 

第 3 章 例 3-1 中 ， 函 数 pattern match 的 定义 中 ， 需 要 把 匹配 到 的 8 条 序列 信息 以 表格 
方式 输出 ， 因 此 有 语句 : 

write.table(as.vector(as.character(t(export)), file = "Hit sequences.fasta", quote = F, 
row.names = F, col.names = F) 

读 入 文件 的 语句 是 : 


read.table("Hit sequences.fasta") 
G) 读 取 网 页 


如 果 想 抓 取 网 页 上 的 某 个 表格 , 那么 可 以 使 用 XML 包 中 的 readHTMLTable 函数 。 第 一 
章 例 1-1 为 了 绘制 地 震 地 图 ， 就 用 到 了 这 个 函数 。 

library(XML) 

url «-'http://data.earthquake.cn/datashare/globeEarthquake csn.html' 

tables <- readHTML Table(url,stringsAsFactors = FALSE) 


(4) 读 取 文本 文件 


有 时 候 需 要 读 取 的 数据 存放 在 非 结 构 化 的 文本 文件 中 ， 例 如 电子 邮件 数据 或 微 博 数据 。 
这 种 情况 下 只 能 依靠 readLines 函数 ， 用 来 将 文档 转 为 以 行为 单位 存放 的 列表 格式 的 数据 。 
另外 一 种 情况 是 ， 某 种 格式 〈 如 生物 信息 中 的 fasta) 的 文件 不 能 被 自动 识别 ， 也 只 能 通过 
readLines 函数 逐 行 读 入 ， 自 行 解析 〈 见 第 三 章 例 3-1)。 


(5) 输出 到 屏幕 或 数据 库 等 


cat 函数 除了 可 以 在 屏幕 上 输出 之 外 ， 也 能 够 输出 到 文件 〈 见 第 一 章 例 3-1)。 此 外 ， 若 
要 与 MySQL 数据 库 交 换 数 据 ， 则 可 以 使 用 RMYySQL 包 。 
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7.1.6 对象 和 类 


面向 对 象 语言 的 核心 概念 是 类 与 对 象 。 类 (Class) 定义 了 一 个 事物 ， 以 及 事物 的 属性 
(Attribute) 和 它 可 以 做 到 的 〈 它 的 行为 )。 后 者 在 程序 语言 层面 ， 通 常 称 为 方法 (Method). 
通过 类 ， 可 以 将 程序 〈 即 方法 ) 和 数据 《〈 即 属性 ) 封装 其 中 ， 以 提高 软件 的 重用 性 、 灵 活 
性 和 扩展 性 。 另 一 方面 ， 类 可 以 看 作 是 一 个 统一 模板 ， 而 对 象 是 指 类 的 某 一 个 具体 实例 ， 
是 抽象 与 具体 的 关系 , 两 者 应 该 严格 区 分 。R 是 非常 典型 的 面向 对 象 的 编程 (Object-oriented 
programming, OOP) 语言 ， 它 提供 了 大 量 的 内 置 的 基础 类 , 包括 了 前 面 介绍 的 数值 、 逻 辑 、 
字符 等 ， 并 且 在 此 基础 上 构成 了 一 些 复合 型 的 类 ， 包 括 和 矩阵、 数组 、 数 据 框 和 列表 。 除 了 
这 些 基 础 类 外 ， 用 户 还 可 以 基于 这 些 基础 类 ， 自 定义 新 的 类 。 

对 于 任何 一 个 对 象 ， 都 可 以 用 attributes 或 str 函数 来 查看 其 包括 的 所 有 属性 值 。 对 象 所 
属 的 类 ， 是 这 个 对 象 的 一 个 特殊 属性 ， 可 以 用 class 函数 来 查看 。 

class (iris) 

[1] "data.frame" 

attributes(iris) 

$names 

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal. Width" 

[5] "Species" 


$row.names 
(1112345... 


$class 

[1] "data.frame" 

从 上 面 的 结果 可 以 看 到 iris 这 个 对 象 的 类 属于 Data.frame 类 ， 即 它 是 一 个 数据 框 对 象 。 
其 属性 有 三 个 ， 即 对 象 所 包括 的 列 名 (names)、 行 名 (row.names) 和 类 〈class)。 所 有 的 对 
象 都 会 有 类 这 个 属性 ， 只 不 过 有 的 可 以 通过 attributes 函数 显示 出 来 ， 有 的 则 不 可 以 〈 例 如 
array 类 )， 但 是 都 可 以 用 class 函数 查看 。 

R 是 典型 的 的 面向 对 象 语言 ， 其 中 的 数据 、 函 数 、 甚 至 图 形 都 是 对 象 。 下 面 再 用 一 个 简 
单线 性 回归 的 例子 来 进一步 了 解 对 象 和 类 的 概念 。 

x-runif(100) # 创建 两 个 数值 向 量 。 

y = rnorm(100)+5*x 

model = lm(y~x) # 用 线性 回归 创建 模型 ， 存 入 对 象 model. 

class(model) # 观察 所 属 的 类 。 

[1] "Im" 

attributes(model) # 提取 对 象 的 各 种 属性 。 

$names 

[1] "coefficients" "residuals" "effects" "rank" 
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[5] "fitted.values" "assign" "gr" "df.residual" 
[9] "xlevels" "call" "terms" "model" 
$class 
[1] "Im" 





从 结果 中 可 以 看 到 ，attributes 函数 返回 了 两 个 属性 ,“names” 属 性 包括 了 线性 回归 得 
到 的 结果 ， 可 以 用 $ 符 号 提取 出 来 。 例 如 通过 lm$coefficients 可 以 提取 回归 方程 的 系数 ， 通 
过 Im$residuals 可 以 提取 回归 后 得 到 的 残 差 。 

mode 函数 可 以 用 来 查看 model 对 象 所 属 类 的 基本 构成 ， 运 行 mode (model)， 则 会 显 
示 lm 类 是 由 list 类 组 成 的 。 如 果 要 消除 对 象 的 类 ， 可 运行 unclass (model), model 对 象 则 
会 变 成 一 个 单纯 的 list 对 象 。 

前 面 提 到 了 类 由 属性 和 方法 组 成 。 所 谓 方 法 实际 上 就 是 一 组 函数 ， 这 组 函数 专门 用 于 
这 个 类 。 例 如 对 于 model 这 个 对 象 , 其 专门 的 绘图 函数 就 是 plotlm。 如 果 用 普通 的 函数 plot 
也 一 样 能 显示 其 图 形 ， 其 原因 在 于 plot 这 种 函数 会 自动 识别 对 象 的 类 ， 从 而 选择 合适 的 函 
数 来 处 理 对 应 的 对 象 ， 这 种 函数 称 为 泛 型 函数 〈Generic function)， 这 里 不 做 进一步 讨论 。 


7.2 创建 及 发 布 自己 的 R/Bioconductor 包 


提交 自己 的 R 包 不 但 可 以 让 更 多 的 人 使 用 ， 而 且 在 提交 及 维护 的 过 程 中 ， 也 可 以 更 多 
地 锻炼 自己 的 R 编程 能 力 及 文档 写作 能 力 。 本 节 以 创建 和 发 布 一 个 R 包 “helloWorld” 为 例 ， 
首先 介绍 了 如 何在 Windows 系统 上 ,通过 RStudio 交 互 界面 创建 RR 包 , 以 及 如 何 发 布 到 CRAN 
和 Bioconductor; 然后 再 简要 介绍 在 Linux 系统 上 如 何 创建 及 包 。 


7.2.1 在 Windows T 4| s£ 4e X 7b R. &, 


(1) 所 需 软件 安装 及 配置 


QD 除了 需要 R 主 程序 之 外 ， 还 需要 安装 以 下 工具 : 

A.RStudio: 它 的 下 载 与 安装 请 参考 本 书 1.2.3， 本 章 示例 版 本 RStudio-0.97.551。 

B.Rtools (http://cran.r-project.org/bin/windows/Rtools/): Windows 下 编译 R 包 的 必 备 软 
件 ， 本 章 示例 版 本 Rtools 3.1; 

C.MikTeX Chttp://miktex.org/) 或 者 CteX Chttp://www.ctex.org/): 用 于 产生 1 PDF 和 
帮助 文件 ， 本 章 示例 版 本 为 支持 中 文 的 CTeX_2.9.2.164。 

OME Windows 系统 环境 变量 :通过 RStudio 创建 RR 包 时 ,RStudio 需要 获得 R 主 程序 、 
Rtools 和 CteX 工具 所 在 的 目录 。R 主 程序 所 在 目录 由 RStudio 自动 获取 ; CteX 所 在 目录 由 
安装 程序 号 入 Windows 环境 变量 ; Rtools 则 需要 在 安装 到 “Select Additional Tasks ”一步 时 ， 
选中 “Edit the system PATH” 来 指定 。 

所 有 软件 安装 完成 后 ， 再 次 检查 环境 变量 : 在 Windows XP 系统 中 ， 右 键 点 击 “ 我 的 电 
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Jj", 选择 “属性 ?> 高 级 > 环境 变量 > 系统 变量 >》Path”， 点 击 “ 编 辑 ” 检查 “变量 值 ” (图 
7-2)。 假 设 RTools 安装 在 CARtools, CteX 安装 在 CACTEX, HA Path 变量 值 中 应 该 有 : 
C:\Rtools\bin;c:\Rtools\gcc-4.6.3\bin; 
C:\CTEX\UserData\miktex\bin;C:\CTEX\MiKTeX\miktex\bin;C:\CTEX\CTeX\ctex\bin;C:\ 
CTEX\CTeX\cct\bin;C:\CTEX\CTeX\ty\bin;C:\CTEX\Ghostscript\gs9.05\bin;C:\CTEX\GSview\ 
gsview;C:\CTEX\WinEdt 


计算 机 名 | 硬件 。 高 级 paeem] 自动 更 新 | 远程 | 

















EEE TE E T TRU 
C:\Documents end SettingsV... 
C:\Documents and Settings V... 





Windows NT 
Path C:\Program FilesMEGAS. 1;C: WIN... 
PATHEXT .COM:. EXE: . BAT :. CMD:. VBS: . VBE: . x | 


Ane D | REL | BR QL) | 











图 7-2 ”配置 Windows 系 统 环境 变量 


如 果 安 装 程序 没有 自动 配置 好 环境 变量 ， 就 需要 手工 添加 。 注 意 路 径 之 间 用 分 号 (“;”) 
分 隔 ， 不 需要 其 他 任何 间隔 符号 。 


(2) 准备 R 包 所 需 全 部 文件 


首先 ， 运 行 RStudio， 从 主 菜 单 选择 “File>New->?R script”， 添 加 如 下 代码 : 
helloWorld <- function()( 
cat("hello world") 

} 

R WFE “File> Save”, 在 工作 目录 C:\workingdirectory, 将 上 述 内 容 保 存 到 文件 
helloworld.R。 再 选 “Project>Create Project ...", WF% “New Project” 新 建 一 个 项 目 。 

在 新 建 项 目 对 话 框 里 (图 7-3)， 从 “Type” 下 拉 菜 单 选择 Package; 文本 框 “Package 
name” 处 填写 helloWorld; 在 “Create package based on source files” 右 边 点 “Add” 添 
加 刚刚 新 建 的 helloworld.R 文件 ， Æ “Create project as subdirectory of” 处 填写 此 R 包 将 
保存 的 目标 目录 “C:\workingdirectory” 最 后 点 击 “Create Project” 来 创建 项 目 。 随 后 ， 
RStudio 会 自动 调用 package.skeleton 函数 生成 本 项 目 所 需 全 部 文件 。 全 部 文件 生成 完毕 ， 


第 七 章 R 的 高 级 语法 与 如 何 创 建 了 包 201 四 


可 以 从 RStudio 右 下 的 文件 浏览 器 中 看 到 “C:\workingdirectory\helloWrold” 目 录 中 已 经 
生成 的 所 有 文件 (图 7-4)。 


Create Project 


1 
Back | Create New Project 


Type: Package name: 
heloWorid 


Create package based on source files: 
C:/workingdirectory/helloworld.R ^ Adi 


C reate project as subdirectory of: ! 


| | 
| |C:/workingdirectory 


Browse... 


| Create Project | |; Cancel 


图 7-3 ”新 建 项 目 对 话 框 
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slloWorld.Rd : — C jhelloworld.R  — 2» 7 Workspace History Build std 
lsoure Q fry 2s |4 JÜiBuld&Reload [7 Check {È More» 
helloworld «- function) | a 


i~ 

2 cat("hello world!\n") 
3 3 

4 


Files Plots Packages Help em 7] 
O) New Folder € Delete | "Rename L1 More» wo IN 
Li Q .workingdirectory  helloWorld 





Name v Size 





Modified 


. 1d B a helloWorld k R Script d 






] Read-and-delete-me 
j DESCRIPTION 10:52 PM 
RI helloWorld.Rproj Oct 11, 2013, 10:52 PM 
NAMESPACE 32 bytes Oct 11, 2013, 10:52 PM 


466 bytes Oct 11, 2013, 






10:52 PM 





Console C/workingdirectorg/heltoWord 






292 bytes 


- 








215 bytes 


Re 
g 
i 4 

















图 7-4 新建 项 目 中 的 所 有 文件 
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修改 man 目录 内 文件 helloWorld.Rd: 删 除 其 中 的 \details, \value, Neferences, \author \note, 
\seealso, \keyword 元 标签 及 其 内 容 ; 在 \title 及 \description 元 标签 内 写 入 相关 内 容 , 修改 后 内 
容 如 下 : 


\name{helloWorld} 

\alias{helloWorld} 

%- Also NEED an \alias' for EACH other topic documented here. 
Xitle( 

Hello world 

} 

\description{ 

echo "hello world" 

} 

\usage{ 

helloWorld() 

} 

\examples{ 

#H---- Should be DIRECTLY executable!! ---- 

##-- ==> Define data, use random, 

##-- or do help(data=index) for the standard data sets. 


## The function is currently defined as 
function () 


{ 
cat("hello world'\n") 


修改 man 目录 内 文件 helloWorld-package.Rd: 删除 \alias{helloWorld} 元 标签 及 其 内 容 ， 
因为 它 与 helloWorld.Rd 中 的 同名 元 标签 冲突 ; 删除 \references 及 \seealso 元 标签 及 其 内 容 ; 
对 其 他 元 标签 内 容 做 合理 修改 ， 修 改 后 内 容 如 下 : 

\name{helloWorld-package} 

\alias{helloWorld-package} 

\docType{package} 

\title{ 

hello world package 

} 

Mescription( 

hello world package to help use to build their first R package 
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} 
\details{ 


\tabular{11}{ 

Package: \tab helloWorld\cr 
Type: \tab Package\cr 
Version: \tab 0.99\cr 

Date: \tab 2013-07-11\cr 
License: \tab What license is it under?\cr 
} 

say hello only 

} 

\author{ 

Who wrote it 


Maintainer: Who to complain to <yourfault@ somewhere.net> 


} 

\keyword{ package } 

\examples{ 

helloWorld() 

} 

注意 ， 如 果 要 提交 到 Bioconductor， 提 交 之 前 ， 版 本 号 应 该 小 于 1.0。 这 里 ， 提 交 前 最 
终 确定 的 版 本 号 应 该 为 0.99。 

进入 “C:\workingdirectory\helloWrold” 目 录 ， 新 建 目录 inst 及 其 子 目录 doc, 进入 doc 
目录 ， 通 过 RStudio 中 的 “File>New>?R Sweave” 新 建 helloWorld.Rnw 文件 ， 也 就 是 常 说 
的 vignette， 其 内 容 如 下 : 

%\VignetteIndexEntry {helloWorld Vignette) 

%\VignetteDepends{helloWorld } 

%\VignetteĶeywords {hello World} 

%\VignettePackage{helloWorld } 

\documentclass {article } 


\begin {document} 
\title{ My first package: hello world] 
\maketitle 
\section{ Say hello to world} 
This is the my first package. Simple but not easy one. 
\begin{scriptsize } 
<<codeTag1>>= 
library(helloWorld) 
helloWorld() 
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Q 
Vend(scriptsize) 


\section (Session Info] 
\begin{ scriptsize} 
<<>>= 

sessionInfo() 

@ 

\end {scriptsize} 

\end {document} 


最 后 ， 通 过 RStudio 中 的 “Build>Check Package” 来 对 所 有 文件 进行 检查 。 如 果 没有 
任何 报错 或 警告 ， 就 完成 了 所 有 文件 的 准备 工作 。 


(3) 添加 其 他 程序 文件 


一 个 R 包 通 常 由 多 个 程序 组 成 ， 并 分 布 在 不 同文 件 中 ， 下 面 示例 如 何 添加 另外 一 个 程 
序 ， 并 存放 到 R 目录 下 的 helloWorldNCall.R 文件 中 。 
helloWorldNCall <- function(n=1L){ 
x<-l+n 
for(i in 1:x){ 
helloWorld() 
) 


X 


) 


每 增加 一 个 程序 ， 就 需要 增加 相应 的 帮助 文件 。 当 然 多 个 程序 也 可 以 通过 使 用 alias 元 
标签 共用 一 个 帮助 文件 ， 但 是 最 好 还 是 程序 和 帮助 文件 一 一 对 应 。 因 此 ， 这 里 需要 在 man 
目录 内 增加 帮助 文件 helloWorldNCall.Rd， 其 内 容 如 下 : 


\name{helloWorldNCall} 
\alias {helloWorldNCall } 
\title{ 

hello world n times 
} 
Mescription( 

call hello world repeatly 
} 
\usage{ 
helloWorldNCall(n=1L) 
} 


\arguments{ 
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\item{n}{A integer number giving the number of times to repeat helloWorld} 

} 

Walue( 

An object of integer number as n+1 
) 
Yexamples( 
helloWorldNCall() 
} 


再 次 通过 RStudio 中 的 “Build 了 Check Package” 来 对 所 有 文件 进行 检查 。 
(4) 增加 自 检 程序 


R 常规 的 检查 工具 只 能 对 程序 能 否 运 行 做 检查 ,无 法 检查 程序 的 边界 条 件 以 及 参数 能 否 
正确 被 处 理 , 所 以 我 们 还 需要 使 用 R/Bioconductor 的 RUnit 及 BiocGenerics 两 个 包 对 程序 的 
正确 性 做 核对 检查 ， 以 防止 在 维护 及 再 开发 的 过 程 中 出 现 错误 。 

首先 ， 分 别 安装 好 RUnit 及 BiocGenerics 包 。 

Install.packages(^*RUnit") 

source("http://bioconductor.org/biocLite.R") 

biocLite("BiocGenerics") 


然后 ， 在 helloWorld 软件 包 根 目录 下 新 建 tests 目录 ,在 其 中 新 建文 件 runTests.R， 其 内 
容 如 下 : 

require("helloWorld") ll stop("unable to load Package:helloWorld") 

BiocGenerics:::testPackage("helloWorld") 


在 DESCRIPTION 文件 中 加 入 一 行 Suggests 描述 : 
Suggests: RUnit, BiocGenerics 


在 inst 目录 下 新 建 子 目录 unitTests， 并 在 其 中 新 建文 件 test_helloworld.R。 注 意 ， 在 此 
目录 中 的 文件 命名 必须 符合 正则 表达 式 '^test_.*\.R$'， 在 文件 中 写 入 的 所 有 函数 命名 必须 符 
合 正 则 表达 式 ' ^test. + ， 否 则 无 法 被 执行 。 
test helloWorld run <- function()( 
helloWorld() 

} 

test helloWorldNCall return <- function()( 
x «- helloWorldNCall(2) 
checkEquals(3, x) 

} 


最 后 ， 通 过 RStudio 中 的 “Build>Check Package” 来 对 所 有 文件 进行 检查 ， 没 有 任何 
报错 或 警告 .如果 将 test_helloworld.R 中 的 checkEquals(3, x) 一 行 改 为 checkEquals(2, x), fi 


E1206 R 语言 与 Bioconductor 生物 信息 学 应 用 


次 进行 错误 检查 ， 就 会 发 现 系统 报错 。 因 为 ， 这 里 期 待 helloWorldNCall(2) 返 回 的 结果 为 2， 
当 helloWorldNCall(2) 不 返回 的 结果 不 是 2 时 系统 就 会 报错 。 
* checking tests ... 
Running ‘runTests.R’ ERROR 
Running the tests in *tests/runTests.R' failed. 
Last 13 lines of output: 
1 Test Suite : 
helloWorld RUnit Tests - 2 test 
functions, 0 errors, 1 failure 
FAILURE in test helloWorldNCall return: 
Error in checkEquals(2, x) : Mean relative difference: 0.5 
Test files with failing tests 
test helloworld.R 
test helloWorldNCall return 
Error in BiocGenerics:::testPackage("helloWorld") : unit tests failed for package 
helloWorld 
Execution halted 
Exited with status 1. 


(5) 增加 数据 


在 R/Bioconductor 包 的 开发 过 程 中 , 常常 需要 附加 一 些 数据 , 或 是 软件 包 用 于 程序 示例 ， 
或 是 软件 包 中 程序 本 身 需 要 ， 或 是 提供 给 其 他 程序 使 用 〈 纯 数据 包 )。 在 RStudio 界面 左下 
方 命令 行 中 运行 下 面 代码 ， 可 以 增加 一 个 数据 : 

X<-3 

dir.create("data ) 

save(x, file-"data/datx.rda") 


这 几 行 代码 在 helloWorld 目录 下 新 建 了 data 目录 , 并 在 其 中 以 datx.rda 为 文件 名 保存 了 
变量 x 中 的 数据 。 

每 增加 一 个 数据 ， 也 需要 增加 相应 的 帮助 文件 ， 因 此 在 man 目录 下 新 建 datx.Rd 文件 ， 
其 内 容 如 下 : 

\name{x} 

Valias(x] 

MocType(data) 

Xitle( 

sample data x 

) 

Mescription( 

sample data x 

} 

\usage{data(datx)} 
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Mormat( 
A integer numeric 
\describe{ 

\item{\code{x} ) (a integer numeric vector) 

} 

} 

\examples{ 

data(datx) 

X 

} 

Mey word {datasets } 


再 次 通过 RStudio 中 的 “Build>Check Package” 来 对 所 有 文件 进行 检查 。 
(6) 创建 R 包 


在 完成 了 以 上 所 有 工作 之 后 ， 就 可 以 正式 创建 一 个 具有 R 程序 、 数 据 及 自 检 功能 的 
helloWorld 包 。 通 过 主 菜单 “Build>Build Source Package”， 就 在 工作 目录 下 创建 了 源 代码 
包 helloWorld_1.0.tar.gz, 这 个 包 不 包含 任何 二 进 制 可 执行 文件 。 而 通过 “Bulid>Build Binary 
Package” 则 可 以 创建 二 进 制 包 ， 二 进 制 包 是 平台 相关 的 ，Window 系统 三 进 制 包 的 文件 扩 
展 名 是 “.zip” MacOSX 系统 二 进 制 包 的 文件 扩展 名 是 “ .tgz”。 


(7) 发 布 R/Bioconductor & 


在 提交 之 前 ， 请 做 好 如 下 准备 工作 : 

删除 不 必要 的 文件 ， 其 中 包 插 后缀 名 为 “.DS_Store”、“.project”、“.svn” 和 “.Rproj” 
的 文件 ; 

@ 如 果 发 布 的 是 Bioconductor 包 , 需要 将 DESCRIPTION 文件 中 的 版 本 号 设置 为 0.99.0。 
在 之 后 的 修改 过 程 中 ， 它 会 变 为 0.99.1、0.99.2…… 正 式 发 布 时 会 自动 变 为 1.0.0; 

@ 尽 量 使 用 原 有 的 R/Bioconductor 程序 ， 而 不 是 重 写 ， 这 样 可 以 减少 R 包 内 容 ， 提 高 
质量 ， 同 时 也 体现 对 他 人 劳动 的 尊重 ; 

由 确认 通过 所 有 的 检查 ， 没 有 出 现任 何 警 告 或 错误 ; 

@@ 出 于 安全 原因 ， 不 要 提交 预 编 译 的 二 进 制 包 ， 所 有 OR 包 都 要 提交 源 代码 包 ， 二 进 制 
包 由 管理 人 员 负 责编 译 和 发 布 。 

普通 R 包 提 交 需 要 以 下 两 个 步骤 : 首先 ， 在线 填 写 提交 表单 ， 网 址 为 
http://cran.r-project.org/submit.html; 然后 上 传 包 到 ftp://CRAN.R-project.org/incoming， 同 时 
给 CRAN@R-project.org 发 邮件 。 注 意 不 要 把 提交 的 包 作 为 邮件 附件 发 送 。 

Bioconductor 包 的 提交 ， 则 需要 首先 在 http://tracker.fherc.org/roundup/bioc_submit/index 
网 站 上 注册 一 个 用 户 ， 激 活 后 登录 ， 选 择 “Issues 耻 Create New”， 在 表单 中 正确 填写 相关 项 
目 ， 等 待 系统 自 检 完 成 之 后 ， 它 会 自动 生成 一 份 报告 ， 告 诉 你 提交 的 R 包 是 否 通过 了 不 同 
平台 的 检查 。 如 果 通 过 了 检查 ， 很 快 它 就 会 被 指定 给 Bioconductor 核心 团队 中 的 一 位 成 员 
审查 ,审查 过 程 中 可 能 需要 反复 修改 你 的 R 包 。 审查 通过 之 后 ，Bioconductor 2 35 — 2 
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喜 邮 件 ， 表 示 全 部 提交 完成 。 
7.2.2 在 Linux 下 创建 和 发 布 包 


在 Linux 系统 上 创建 R 包 ， 通 常 不 需要 配置 环境 变量 ， 操 作 要 相对 简单 一 些 。 假 设 当 
前 的 工作 目录 是 “~/workspace”， 可 以 通过 下 列 步 骤 来 创建 源 代 码 包 helloWorld_1.0.tar.gz。 
(1) 建立 一 个 R 源 代码 文件 helloWorld.R， 内 容 为 : 
helloworld<-function(){ 
cat("hello world'\n") 
} 


(2) 进入 R 主 程序 ， 运 行 : 

rm(listzls() # 清除 所 有 不 需要 的 数据 或 函数 
setwd("-/workspace" # 切换 工作 目录 
source(^-/workspace/helloWorld.R")  # 读 取 R 源 文件 


(3) 调用 package.skeleton0) 函 数 ， 创 建 R 包 框 架 : 
package.skeleton(name = *helloWorld", list = (“helloWorld”)) 


(4) 删除 文件 Read-and-delete-me， 修 改 文件 helloWorld.Rd 和 helloWorld-package.Rd， 
新 建文 件 helloWorld.Rnw 等 操作 。 

(5) 检查 并 创建 R 包 。 

$ cd -/workspace 

$ R CMD check helloWorld 

$ R CMD build helloWorld 

(6) 安装 制作 好 的 R 包 到 指定 目录 /home/rlibs。 

$ R CMD INSTALL -l /home/rlibs helloWorld 1.0.tar.gz 


7.3 RBH 


本 章 7.2 节 创 建 R 包 部 分 提 到 了 R 包 分 为 源 代码 包 和 二 进 制 包 。 通 常 ,R 和 Bioconductor 
官方 网 站 只 发 布 三 种 R 包 : 适用 于 Windows 系统 的 二 进 制 包 (“.zip” 文 件 )、 适 用 于 Mac OSX 
系统 的 二 进 制 包 (“.tgz” 文 件 ) 和 适用 于 所 有 系统 的 源 代码 包 (“ .tar.gz” 文 件 )。 由 于 Linux 
系统 具有 多 种 的 发 行 版 ， 无 法 发 布 一 个 统一 的 二 进 制 包 ， 因 此 Bioconductor 只 发 布 Linux 
系统 的 源 代码 包 ， 由 用 户 下 载 源 代码 包 到 本 地 ， 然 后 编译 安装 。 

在 不 同 操作 系统 上 创建 的 源 代 码 包 是 完全 一 样 的 ， 针 对 不 同 操作 系统 的 二 进 制 包 一 些 
文件 会 有 差异 ， 但 基本 目录 类 似 。 然 而 ， 源 代码 包 (图 7-5A) 与 二 进 制 包 (图 7-5B) 之 间 
的 差别 还 是 很 大 的 。 另 外 ， 通 过 比较 就 会 发 现 ， 系 统 中 安装 好 的 R 包 ， 与 二 进 制 包 解 压缩 
后 内 容 完 全 一 致 。 
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A. B. 
helloworld helloworld 
--- data --- data 
--- datx.rda - *--- datx.rda 
+-- DESCRIPTION +-- DESCRIPTION 
*--- inst --- doc 
--- doc : *--- helloworld.R 
--- helloworld.pdf : +-- helloworld.Rnw 
--- helloworld.R è +-- index.html 
+- - helloworld. Rnw --- help 
--- UnitTests ' --- aliases.rds 
- - test helloworld.R ; --- Anindex 
--- man : *-- helloworld.rdb 
| *--- datx.Rd $ +-- helloworld. rdx 
+- - helloworldNCall.Rd - +- - paths.rds 
+- - helloworld-package.Rd --- html 
--- helloworld.Rd ~ +- - eeindex.html 
--- NAMESPACE - *--- R.css 
+-- R +-- INDEX 
- --- helloworldNCall.R --- MDS 
: --- helloworld.R +-- Meta 
--- test - +-- data.rds 
--- runTests .R *--- hsearch.rds 


+-- links.rds 
*--- nsinfo.rds 
*--- package.rds 
--- Rd.rds 
: -- vignette.rds 
二 一 一 NAMESPACE 
+-- R 
; *-- helloworld 
*-- helloworld.rdb 
: +- - helloworld.rdx 
--- UnitTests 
+-- test helloworld.R 


图 7-5 ” 源 代码 包 和 二 进 制 包 的 比较 
7.3.1 R 的 源 代 码 包 


一 个 R 源 代码 包 一 般 包 括 以 下 目录 和 文件 〈 图 7-5A) . 

(1) DESCRIPTION 是 一 个 纯 文 本 文件 ， 提 供 及 包 的 基本 信息 ， 包 括 包 名 、 版 本 号 、 标 
题 、 描 述 和 依赖 关系 等 。 

(2) R 子 目录 存放 所 有 R 函数 的 源 代码 文件 ， 文 件 扩展 名 是 “.R”， 可 以 被 source 函数 
载 入 ， 这 些 R 函数 还 可 导出 作为 包 函 数 库 提 供给 外 部 使 用 。R 和 man 子 目 录 还 可 能 包含 操 
作 系 统 专 有 的 子 目 录 unix 和 Windows。 

(3) man 子 目 录 存 放 所 有 R 帮助 〈 即 调用 help 函数 显示 的 内 容 ) 的 源 代码 文件 ， 文 件 
扩展 名 是 “.Rd”。 除 了 Rd 格式 的 帮助 文件 ，R 包 中 还 允许 包含 其 他 任意 格式 的 帮助 文件 ， 
尤其 是 PDF 文件 。 源 代码 包 中 的 其 他 帮助 文件 位 于 Inst/doc/ 子 目录 。 当 包 安 装 后 ， 这 个 目 
录 下 的 内 容 将 被 复制 到 包 安 装 路 径 中 的 doc 目录 中 。 

(4) inst 子 目录 下 的 所 有 文件 和 子 目录 将 会 递归 复制 到 所 在 包 的 安装 目录 下 ， 因 此 inst 
下 的 子 目录 不 应 该 与 二 进 制 包子 目录 CR. data. demo. exec. libs, man, help. html 和 meta) 
名 称 相 冲 突 。 

(5) 对 于 有 命名 空间 的 包 ，NAMESPACE 文件 枚 举 包 中 需要 被 导出 的 对 象 。 

(6) Data 子 目 录用 于 存放 数据 ， 可 以 由 3 种 形式 的 文件 保存 : R 代码 文件 (后缀 名 是 .R 
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或 r)、 表 格 文件 (后 缀 名 是 .tab、.txt 或 csv) 以 及 RR 映像 文件 (后 级 名 是 .RData 或 .rda)。 
对 于 较 大 的 数据 集 , 应 使 用 save 函数 产生 R 映像 来 保存 数据 , 可 以 大 大 节省 用 户 下 载 时 间 。 
更 重要 的 是 ，R 映像 是 直接 保存 到 包 中 的 二 进 制 数据 格式 (正宗 的 R 数据 )， 当 所 在 的 包 被 
library 函数 加 载 时 ， 这 些 数据 被 同时 加 载 ， 可 以 使 用 data 函数 直接 调 取 数据 ( 见 第 5 章 例 
5-15. 

C7) demo 子 目录 提供 演示 用 的 的 R 脚本 ， 脚 本 文件 必须 以 字符 开头 ， 以 R” R r” 
作为 扩展 名 ， 并 通过 demo 函数 运行 。 

(8) src 子 目录 保存 其 他 编程 语言 (如 C、C++ 和 Fortran 等 ) 编写 的 源 代 码 和 头 文件 ， 
还 可 能 包括 用 于 编译 的 Makevars 或 Makefile 文件 。 

(9) tests 子 目录 包括 专用 的 测试 代码 ， 本 章 7.2.1 中 已 介绍 。 

(10) exec 子 目录 存放 可 能 需要 的 可 执行 脚本 ， 尤 其 是 shell. Perl 或 Tcl 脚本 ， 当 前 这 
一 机 制 极 少 使 用 。 


7.3.0 R &$ — ut 4| &, 


通过 图 7-5B， 可 以 发 现 R 的 二 进 制 包 和 源 代码 包 之 间 有 以 下 主要 区 别 。 

CD 二 进 制 包 的 R 子 目 录 中 没有 “.R” 文 件 ， 而 是 将 解析 过 的 函数 分 别 保存 在 3 个 文 
件 中 ,其 中 的 “.rdb” 文 件 保 存 序列 化 的 对 象 ， 而 “.rdx” 文 件 保存 索引 。 这 等 效 于 先 加 载 
所 有 的 R 源 代码 ， 再 用 save 函数 保存 。 

(2) 二 进 制 包 增加 了 Meta 子 目录 存放 “.rds” 文 件 ， 可 以 通过 readRDS 函数 查看 这 些 
文件 的 内 容 。“.rds” 文 件 用 来 保存 一 个 连接 到 文件 的 单一 R 对 象 ， 并 可 以 用 一 个 不 同 的 名 
称 来 恢复 该 对 象 。“.rds” 文 件 常 被 R 主 程序 使 用 , 例如 存储 包 的 元 数据 或 存储 “help.search” 
数据 库 。 

(3) 二 进 制 包 增 加 了 html 子 目录 存放 所 有 html 格式 的 帮助 文件 。 

(4) 如 果 源 代码 包 有 src 子 目 录 ， 二 进 制 包 将 增加 libs 子 目录 ， 其 中 包含 src 中 所 有 源 
代码 的 32 位 (i386/) 和 64 位 (x64/) 编译 结果 。 


参考 文献 


[1] Writing R Extensions. http://cran.r-project.org/doc/manuals/R-exts.html 

[2] The DESCRIPTION file. http://cran.r-project.org/doc/manuals/R-exts.htmlz?The-DESCRIPTION-file 
[3] Writing R documentation files. http://cran.r-project.org/doc/manuals/R-exts.htmlfWriting-R-documentation-files 
[4] Bioconductor package guidelines. http://bioconductor.org/developers/package-guidelines/ 

[5] RUnit primer. http://cran.r-project.org/web/packages/RUnit/vignettes/RUnit.pdf 

[6] Advanced R programming: Package basics. http://adv-r.had.co.nz/Package-basics.html 


附录 A 进一步 学 习 的 资源 


R 语言 和 Bioconductor 的 学 习 资 源 浩 如 烟 海 , 除了 前 面 介绍 过 的 R 语言 和 Bioconductor 
项 目的 官方 网 站 ， 读 者 〈 特 别 是 生物 信息 学 领域 ) 还 要 充分 利用 其 他 方面 的 资源 。 考 虑 到 
大 部 分 中 文 初学 者 的 需求 ， 重 点 推荐 “数据 科学 与 R 语言 人 “ 粮 世 界 ” 和 “生物 信息 学 天 


A ^ 


室 ” 三 个 中 文 网 站 ， 以 及 一 个 QQ 讨论 群 : 生物 信息 学 天 空 系列 群 。 
一 、 相 关 网 站 


1. 数据 科学 与 R 语言 (http://xccds1977.blogspot.comy/) 
“数据 科学 与 R 语言 ”是 本 文 作 者 之 一 R 语言 培训 师 肖 凯 的 个 人 博客 ， 里 面 有 大 量 R 
语言 在 多 个 领域 中 数据 分 析 应 用 的 实例 和 代码 详解 , 是 国内 最 好 和 最 全 的 R 语言 资源 网 站 。 


数据 科学 与 语言 


Data Science and R 


主页 凡人 秆 么 是 数据 科学 。 ”如何 学 习 数 据 科学 。 REEUDIDERESS 。 关于 我 kef 





ds 搜索 此 请 客 

什么 是 数据 科 学 (Data Solenca) 搜索 | 

何 请 数据 科学 ?在 wikipedia 中 你 还 找 不 到 Data Science 的 词 条 ， 但 它 将 成 就 你 的 未 来 . - 

KE E IPERE i T MUI NER ] BigData book n: emia 

分 歌 首席 经 济 学 家 Hal Varian 在 2009 年 说 ， 下 一 个 十 年 最 有 吸引 力 的 工作 就 是 统计 学 家 。 能 lot2 

获取 并 处 理 数据 ， 从 中 得 到 有 用 信息 并 能 图 形 化 ， 并 使 人 们 得 以 至 解 ， 这 将 是 非常 重要 的 技 GOPALE gue Kuti xN 

能 。 在 此 处 他 所 称 的 "统计 学 家 “， 实 际 上 是 能 够 提取 大 阔 据 集 的 信息 ， 然 后 展现 给 非 数 据 专家 kassa Indhti DS other roe 

的 那些 人 ， 我 们 也 可 称 之 为 数据 极 客 (Data Geek) 或 是 数据 科学 家 (Data Scientists). Hie Saera side 
n — AT TEUER 公开 数据 
、 数 据 科 学 的 构成 cde i lE s 


2. Witt Jt (http://pgfe.umassmed.edu/ou) g 
“ 粮 世 界 ” 是 本 文 作者 之 一 欧 剑 虹 博 士 的 个 人 博客 ， 里 面 有 大 量 R 语言 ， 特 别 是 


Bioconductor 分 析 生 物 数据 的 资料 , 内 容 详 尽 , 覆盖 面 广 ,， 图文并茂, 是 鲜 有 的 Bioconductor 
中 文学 习 资 源 。 
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使 用 RStudio 结 合 devtools 开 发 bioconductor e 4, 
扩展 包 © HJj 
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3. 生物 信息 学 天 空 (http:/www.bioinfosky.com/) 
“生物 信息 学 天 空 ” 是 关注 于 生物 信息 学 知识 的 科学 普及 类 网 站 , 提供 了 各 类 学 习 资 源 、 
ine sd Do 学 术 论坛 有 专门 的 栏目 讨论 R 语言 在 生物 信息 学 中 的 应 用 。 
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| CI [c l D^ 第 三 让 华 大 基因 生物 信息 软件 及 数据 发 布 盆 { 

I x 北京 市 计算 中 心 -《 论 文 图 表 处 理 实用 技能 》 
2012 生 物 医学 工程 ， 生 物 信息 学 国际 会 议 (BEB 








4. 统计 之 都 (http://cos.name/) 
“统计 之 都 ”致力 于 传播 统计 知识 ， 特 别 是 基本 理论 和 实际 应 用 的 结合 ， 其 推荐 的 编程 
语言 就 是 R 语言 ， 有 大 量 相关 的 文章 等 资源 ， 特 别 适合 中 文 初学 者 。 
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名 师 访谈 : 约翰 . 霍 普 金 斯 大 学 Jeff Leek —— 
Posted on 2013/06/17 by JR : —— 
* Twittenfbcos name 


Jeff Leek 是 约 朝 . 霍 普 金 斯 大 学 布 隆 博 格 公共 卫生 学 院 (Johns Hopkins Bloomberg 
School of Public Heaith ) 助理 教授 。 他 与 另外 两 位 教授 共同 打 理 的 Simply Statistics 是 最 mà. 
受 欢迎 的 统计 学 博客 之 一 。 本 文 是 小 编 对 Jeff Leek 采 访 的 录音 稿 。 


1. 教育 背景 


我 叫 Jeff Leek, 我 是 美国 约翰 `: 霍 普 金 斯 大 学 的 一 名 助理 教授 ， 方 向 是 生物 统计 。 我 在 犹 
他 州立 大 学 念 的 本 科 ， 方 向 是 应 用 数学 。 然 后 是 在 西雅图 华盛顿 大 学 读 的 生物 统计 博士 
学 位 。 之 后 我 又 在 Mount Sinai School of Medicine 做 了 博士 后 ， 然 后 又 去 约翰 - 霍 普 金 斯 
大 学 做 了 博士 后 ， 方 向 是 计算 生物 学 。 我 的 研究 方向 主要 是 基因 组 相关 问题 和 下 一 代 序 我 们 将 第 一 时 间 向 您 推送 主 站 和 论 


列 分 析 。 我 正在 维护 一 个 叫 Simply Statistics 的 博客 ， 里 面 有 很 多 有 趣 的 统计 问题 。 ORRAT, URRE ZEA 
下 活动 。、 竞 赛 、 培 训 和 会 议 信息 。 





RBE CapStat 


5. R-bloggers (http://www.r-bloggers.com/) 
“R-bloggers” 是 一 个 R 语言 博客 整合 网 站 ， 它 收集 了 全 球 数 百 个 和 R 有 关 的 博客 源 ， 
各 种 关于 R 语言 使 用 的 技巧 文章 相当 丰富 ， 但 要 求 读者 有 良好 的 英文 基础 。 
R-bloggers 


R news and tutorials contributed by (452) R bloggers 


Home About add your blog! Contact us 





weLcome! Prototyping A General Search & Hi Enter 
Here you will find daily Reg ression N eu ra | N etwo rk 


news and tutorials 
about R, contributed by with SAS TOP 7 ARTICLES OF THE WEEK 
over 450 bloggers. You 
can subscribe for e-mail 


By statcompute Dynamic Data Visualizations in the 
y statcomput 


updates Browser Using Shiny 
(Your e-mail here Last time when I read the paper "A 2. Top 100 R packages for 2013 (Jan 
Subscribe Add a Comment General Regression Neural May)! ] 
Network" by Donald Specht. it was 3. Computerworld's Beginners Guide to R 
| o exactly 10 years ago when | was in the graduate school. After reading 4. Draw nicer Classification and 
And get updates to your again this week, | decided to code it out with SAS macros and make Regression Trees with the rpart.plot 
Facebook this excellent idea available for the SAS community. The prototype of package 





a 


Evaluating Optimization Algorithms in 


4» R MATLAB. Python, and R 
bloggers Select operations on R data frames 


A list of R packages, by popularity 


AO 


D#4 
7,990 AM R bloggers 。 2 d d à 
"- Optimization Announcing pqR: 
B 时 Bn i A faster version of SeM Enter 
i 
; R 
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。 人 集合 了 R 语言 中 最 常用 函数 的 参考 卡片 
http://cran.r-project.org/doc/contrib/Short-refcard.pdf 
。 官 方 网 站 上 的 R 语 言 导 论 资料 
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http://cran.r-project.org/doc/manuals/R-intro.pdf 

e Quick-R 是 in Action 一 书 的 作者 网 站 ， 提 供 了 大 量 在 线 教程 
http://www.statmethods.net/ 

。 一 本 关于 R 语言 编程 的 wikibook 
http://en.wikibooks.org/wiki/R_Programming 

。 官 方 主编 的 R 语言 期 刊 ， 提 供 了 很 多 扩展 包 的 使 用 说 明 
http://journal.r-project.org/current.html 

。 美 国 计 算 机 世界 杂志 网 站 提供 的 R 语 言 初学 者 入 门 资 料 
http://www.computerworld.com/s/article/9239625/Beginner s guide to_R_Introduction 
e Cookbook 提供 了 关于 R 使 用 中 的 常见 问题 的 解决 方法 
http://www.cookbook-r.com/ 

。 提 供 了 R 语言 绘图 方面 的 函数 介绍 和 选择 方法 
http://www.yaksis.com/posts/r-chart-chooser.html 

e Ggplot2 绘图 包 的 官方 文档 

http://docs.ggplot2.org/current/ 

。 提 供 了 一 些 R 语言 教学 幻灯 片 

http://courses.had.co.nz/ 

。 精 悍 简 洁 的 R 语言 视频 教程 ， 已 经 有 近 百 个 免费 视频 
http://www.twotorials.com/ 

。 著 名 的 网 络 公 开课 Coursera 提供 的 R 语言 课程 
https://www.coursera.org/course/compdata 

* Lynda 提供 的 R 语言 教学 视频 课程 ， 有 部 分 免费 课程 
http://www.lynda.com/R-tutorials/Up-Running-R/120612-2.html 

。 以 实际 操作 来 练习 R 的 学 习 平台 

http://tryr.codeschool.com/ 

。 一 个 偏重 于 IT 技术 的 问答 网 站 ， 其 中 有 大 量 关 于 R 的 问题 和 答案 
http://stackoverflow.com/questions/tagged/r 

。 一 个 偏重 于 数据 分 析 和 数据 挖掘 的 问答 网 站 ， 其 有 也 有 许多 R 的 技巧 
http://stats.stackexchange.com/ 

。 一 个 专门 的 R 语言 资料 搜索 引擎 

http://www.rseek.org/ 


二 、R 学 习 的 书籍 


CD RR 语言 进 阶 
《R in Action》 
《The Art of R Programming》 


进 阶 可 首选 两 本 ， 前 者 从 统计 角度 入 手 ， 分 高 、 中 、 低 三 部 分 由 浅 入 深 地 讲解 了 如 何 
用 RR 来 实现 统计 分 析 。 后 者 从 程序 编写 的 角度 入 手 ， 对 R 的 本 身 特 点 进行 了 清晰 地 介绍 。 
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(2) 高 级 统计 
(A Handbook of Statistical Analyses Using R) 
(Modern Applied Statistics With S) 


这 两 本 书 基本 上 涵盖 了 统计 的 一 些 高 阶 内 容 ， 例 如 多 元 分 析 、 多 层 回 归 模 型 、 荟 茜 分 
析 、 生 存 分 析 等 内 容 。 案 例 丰 富 ， 公 式 不 多 ， 值 得 反复 学 习 参 考 。 目 前 只 有 英文 版 。 


(3) 科学 计算 
(Introduction to Scientific Programming and Simulation Using R) 


除了 统计 分 析 外 ， 此 书 独 特 之 处 在 于 使 用 R 来 做 数值 分 析 ， 如 求 根 、 最 优化 、 数 值 积 
分 。 还 包括 了 一 些 常 见 的 模拟 技术 。 书 后 的 习题 和 最 后 的 案例 非常 有 用 。 


(4) 数据 挖掘 


《Data Mining with R_Learning with Case Studies》 

《Machine Learning for Hackers》 

两 本 侧重 于 数据 挖掘 的 R 书 ， 全 是 以 案例 为 线索 ， 示 范 的 代码 量 很 大 。 跟 一 遍 下 来 会 
有 很 大 的 收获 。 


(5) 数据 绘图 


(ggplot2 Elegant Graphics for Data Analysis) 
ggplot2 包 是 R 中 最 优秀 的 绘图 包 ， 相 对 于 英文 版 ， 中 文 版 进行 了 大 幅 更 新 ， 推 荐 对 绘 
图 可 视 化 有 兴趣 的 用 户 学 习 。 


(6) 参考 手册 


(R Cookbook) 

(R in a Nutshell} 

有 时 候 我 们 需要 类 似 词 典 的 案头 参考 手册 ， 以 方便 随时 查阅 。 又 或 者 可 以 通读 一 遍 以 
查 漏 补缺 。 上 面 两 本 书 虽 然 有 些 厚度 ， 但 仍然 推荐 。 


(7) 高 级 编程 


(R Programming for Bioinformatics) 

(Software for data analysis programming with R) 

如 果 你 是 初学 者 ， 不 要 去 看 上 面 两 本 书 。 如 果 你 想 进 阶 为 专家 级 R 用 户 ， 那 你 需要 精 
读 它 们 。 前 者 讲解 了 R 少 为 人 知 的 一 面 ， 例 如 字符 处 理 、 正 则 表达 和 XML， 还 有 报错 处 理 
以 及 与 其 他 语言 的 交互 。 后 者 更 是 编写 生产 级 代码 的 圣经 指南 。 


附录 B 及 常用 函数 





x&&y E (只 返回 第 一 
xly 


| 











| 
e^x 次 方 

E — — ——— 

Eun log10 本 


sm 一 
sinh,cosh,tanh 双 曲 函数 








poly 正 交 多 项 式 
polyroot 多 项 式 求 根 


solve 对 线性 方程 求解 或 求 矩 阵 的 逆 
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字符 的 个 数 



















factor 创建 因子 向 量 
a 创建 数组 


字 

符 lsubst | 求 字符 串 的 子 串 
grep 基于 正则 表达 式 的 匹配 

操 sub 基于 正则 表达 式 的 替换 

作 
seq OEFA — 1 O 
Ip | 创建 重复 向 量  — 0 0 ü | 





Gg 
ist 创建 列表 
创建 数据 杠 


as.complex 转化 为 复 值 型 


asaray | 转化 为 数组 
转化 为 数据 框 





LI» m e s yt 
ETSI = 














示 元 素 n 
X 
数 x[1:n] 前 n 个 元 素 x[i,] 第 i 行 
据 x[-(1:n)] EU 至 最 后 的 元 | xLjl 第 j 列 
处 3 
5 第 1 和 3 列 
的 元 素 
x[x>3] 所 有 大 于 3 的 元 素 mea OO a x 中 名 称 为 
的 name 的 属性 
X [xbo3 & x«5] 区 间 (3，5) 的 元 素 | x[x%in%c("a","and","the")] 给 定 组 中 的 元 素 
取 
与 
fü 
单 
: 
TE. [subset 根据 条 件 选 取 元 素 


升序 排列 元 素 
翻转 所 有 元 素 





order 获取 排序 后 的 索引 
table 返回 频数 表 
将 数据 分 割 为 几 部 分 








按照 给 定 条 件 分 割 数据 
cbind 按 列 合并 数据 


按照 指定 列 合并 矩阵 或 者 数据 杠 
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data 加 载 指定 的 数据 集 














[loaa | 加 载 save 或 者 saveimage 保 存 的 数据 | 
以 fixed width formatted 形式 读 取 数据 至 表格 
二 进 制 保存 指定 对 象 

Save.image 二 进 制 保存 当前 线程 (sessiom) 内 所 有 对 象 
lsink | 输出 转向 到 指定 文人 | 
[prim | 输 屏 幕 o O 


删除 对 象 


snam 
tr 

ls.str 展示 内 存 中 所 有 对 象 的 详细 信息 
i 
Ci 








save 

































ERNA A AER ERNI ERN 
返回 对 象 中 元 素 的 个 数 

[names | 显示 数据 的 名 称 ， 对 于 数据 框 是 其 列 名 
获取 因子 向 量 的 水 平 





获取 矩阵 或 者 数据 框 的 行 数 


1 
s 
d 
nr 
n 


m 

OW 
获取 矩阵 或 者 数据 框 的 列 数 
rownames 获取 数据 的 行 名称 

ad 








class 
[mde R 0000000000000 0 | 
获取 数据 的 前 n fT l 

获取 数据 的 尾 n 1T 


显示 对 象 的 概要 
得 到 或 设置 x 的 属性 类 型 


mox ow ox 





he: 








tail 
summary 
attr 


is.na, 
is.null, 


is.array, 





is.data.frame, 






检测 变量 的 类 型 


is.numeric, 
is.complex, 


is.character, 
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dirs 显示 当前 目录 下 的 文件 夹 和 文件 












list.dirs 显示 当前 目录 下 的 所 有 文件 夹 (包括 各 级 子 目录 ) 


cO Sox 





bp e | 
[unzip | 解压 文件 


或 者 help, HKE (AZO 帮助 文件 


帮 
助 












HTML 形式 的 帮助 
在 当前 路 径 下 进行 搜索 


apropos 
example 查看 函数 的 使 用 示例 


|mx | 返回 最 大 元 素 
[min | 返回 最 小 元 素 
pax | 
pmin ———— | 


向 量 间 相同 下 标 元 素 进行 比较 最 大 者 ， 并 组 成 新 的 向 量 
cumprod 
cummax 
cummin 
mean 
weighted.mean 
median 















向 量 间 相同 下 标 元 素 进行 比较 最 小 者 ， 并 组 成 新 的 向 量 
向 量 中 重复 第 一 个 元 素 加 到 第 i 个 元 素 ， 并 重新 组 成 新 的 向 量 。 
x[i]. sum(x[1]:x[i]) 










xo om 
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M foinn —— [8 0000000 | 
Mi 
统 |chisqtest | 卡 方 检验 ， 进 行 独立 性 检验 
计 
前 
E E — — 
绘 [poins | 添加 点 
图 es ee o O 
CO 


附录 C 的 内 存 管理 和 帮助 系统 


一 、 民 的 内 存 管理 


在 大 数据 时 代 ，R 语言 还 面临 两 大 挑战 : 一 个 是 内 存 限制 ， 另 一 个 是 单线 程 计 算 。 其 中 
多 线程 问题 正在 逐步 解决 : TER 语言 的 2.14 版 本 发 布 之 后 ， 有 很 多 扩展 包 可 用 来 支持 了 在 
大 内 存 以 及 多 线程 方面 的 应 用 。 但 是 对 于 R 的 内 存 管理 ， 尽 管 推出 了 一 些 解决 方案 〈 如 
bigmemory 包 )， 仍 然 还 是 困扰 编程 人 员 的 一 个 大 问题 ， 主 要 是 因为 大 多 数 情况 下 ，R 需要 
将 数据 全 部 读 入 内 存 ， 然 后 将 数据 作为 一 个 整体 对 象 〈 例 如 大 和 矩阵 ) 来 处 理 。 如 果 处 理 大 
文件 (例如 测序 得 到 的 fastq 文件 )， 经 常会 遇 到 “cannot allocate vector of size” 或 者 “无 法 
分 配 大 小 为 .的 矢量 ”这 样 的 错误 提示 。 升 级 硬件 (加 大 内 存 或 升级 到 64 位 系统 ) 和 改进 
算法 (例如 分 割 数据 后 处 理 ) 是 解决 内 存 问 题 的 永恒 办 法 ， 本 书 不 做 讨论 。 从 管理 的 角度 ， 
可 以 从 以 下 不 同 思 路 出 发 来 解决 内 存 不 够 的 问题 。 最 简单 的 方法 就 是 查看 内 存 使 用 情况 ， 
调整 内 存 分 配 上 限 〈 例 C-1)。 当 前 ，R 主 程序 安装 时 (特别 是 Windows 系统 ) 一 般 都 是 自 
动 安装 ， 操 作 系统 分 配给 R 的 内 存 以 及 上 限 都 是 默认 设置 。 而 且 R 为 变量 分 配 内 存 时 ， 会 
向 操作 系统 申请 连续 的 内 存 空间 ， 一 旦 无 法 满足 ， 就 会 出 现 错误 提示 。 从 例 C-1 中 可 以 看 
到 ， 当 前 操作 系统 分 配给 R 主 程序 25.62 Mb 内 存 ，R 已 使 用 23.05 Mb 注意 刚 开始 时 已 使 
用 内 存 和 已 分 配 内 存 是 同步 增加 的 )， 而 操作 系统 最 多 能 分 配给 R 的 内 存 总 量 是 1000 Mb. 
在 Windows 操作 系统 中 , 可 以 直接 在 R 中 运行 memory.limit (2000) 将 内 存 上 限 提高 到 2000 
Mb; 或 者 执行 命令 行 “Rgui --max-mem-size 2Gb”。 


例 C-1: 

# 查看 操作 系统 已 分 配给 R 的 内 存 总 量 。 
memory.size (T); 

[1] 25.62 

# 查看 R 已 使 用 的 内 存 总 量 。 

memory.size (F); 

[1] 23.05 

# 查看 操作 系统 分 配给 R 内 存 总 量 的 上 限 。 
memory.limit (); 

[1] 1000 

"8 查看 操作 系统 分 配给 R 内 存 总 量 的 上 限 提高 到 2000Mb。 
memory.limit (2000); 


内 存 的 分 配 不 能 超过 硬件 的 限制 ， 因 此 用 提高 上 限 的 方法 来 解决 内 存 不 足 的 适用 范围 
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很 小 。 更 多 的 是 依靠 及 时 查看 R 中 各 个 对 象 的 内 存 占 用 情况 〈 例 C-2)， 对 占用 过 多 内 存 或 
者 暂时 不 用 的 对 象 进行 处 理 。 最 简单 的 做 法 就 是 通过 1s. 函数 来 查看 当前 内 存 中 所 有 的 对 象 ， 
并 通过 objectsize 函数 来 查看 每 个 对 象 占用 内 存 的 大 小 。 从 例 C-2 中 可 以 看 到 ， 通 过 
storage.mode 函数 改变 对 象 a 的 存储 模式 ， 可 以 大 大 节省 存储 空间 。 


例 C-2: 

# 生成 一 个 数组 类 型 的 变量 a。 

a=array(1:12,dim=c(3,4)); 

# 给 第 一 个 元 素 赋值 ， 变 量 a 的 存储 模式 变 为 “double” 类 型 。 

a[1,1]=0.1; 

# 查看 a 的 存储 模式 。 

storage.mode(a); 

[1] "double" 

# 查看 a 的 存储 模式 。 

object.size(a); 

storage.mode(a) <- "integer"; 

# 再 次 查看 a 的 存储 模式 。 

object.size(a); 

为 了 便于 查看 当前 内 存 中 所 有 对 象 占用 内 存 的 情况 ，RStudio 在 其 用 户 界面 的 右上 部 分 
提供 了 一 个 Workspace 标签 ， 用 于 列表 显示 当前 内 存 中 的 所 有 对 象 。 更 常见 的 情况 是 ， 调 用 
下 列 2 个 函数 〈 原 作者 是 Dirk Eddelbuettel) 来 查看 : ls.objects 函数 和 top 函数 ， 后 者 只 显 
示 前 n 个 最 大 对 象 的 占用 内 存 情况 ， 在 实际 中 ， 使 用 更 为 广泛 。 


# 显示 当前 内 存 中 的 所 有 对 象 占用 内 存 情况 。 
Is.objects «- function (pos = 1, pattern, order.by, 
decreasing-FALSE, head-FALSE, n=5) ( 
napply «- function(names, fn) sapply(names, function(x) 
fn(get(x, pos = pos))) 
names <- ls(pos = pos, pattern = pattern) 
obj.class «- napply(names, function(x) as.character(class(x))[1]) 
obj.mode «- napply(names, mode) 
obj.type «- ifelse(is.na(obj.class), obj.mode, obj.class) 
obj.size «- napply(names, object.size) 
obj.dim «- t(napply(names, function(x) 
as.numeric(dim(x))[1:2])) 
vec «- is.na(obj.dim)[, 1] & (obj.type !— "function") 
obj.dim[vec, 1] «- napply(names, length)[vec] 
out <- data.frame(obj.type, obj.size, obj.dim) 


names(out) <- c(" Type", "Size", "Rows", "Columns") 
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if (!missing(order.by)) 
out «- out[order(out[[order.by]], decreasing-decreasing), ] 
if (head) 
out «- head(out, n) 
out 
) 
# 显示 当前 内 存 中 的 前 10 个 最 大 对 象 占用 内 存 情 况 
top <- function(..., nz10) { 
Is.objects(..., order.byz" Size", decreasing- TRUE, head- TRUE, n-n) 
} 


在 所 有 内 存 管理 的 方法 中 , 最 有 效 的 就 是 及 时 调用 rm 函数 删除 计算 过 程 中 生成 的 中 间 
对 象 ， 对 于 某 些 可 能 后 面 会 用 到 的 信息 ， 可 以 存 入 硬盘 文件 中 。 调 用 rm 函数 删除 对 象 时 ， 
只 会 删除 变量 的 引用 ， 并 不 会 立即 清除 占用 的 内 存 空间 ， 可 以 用 过 Windows 的 任务 管理 器 
看 到 R 进程 占用 的 内 存 并 没有 减少 。 失去 引用 的 对 象 就 成 了 内 存 中 的 垃圾 , R 采用 了 与 java 
类 似 的 垃圾 回收 机 制 ， 系 统 会 定期 自动 发 现 垃圾 ， 集 中 清理 ， 并 回收 不 使 用 的 内 存 。 如 果 
需要 立即 清理 内 存 ， 可 以 使 用 gc 函数 ， 这 对 于 立即 需要 大 量 内 存 的 情况 非常 必要 。 随 着 R 
中 的 垃圾 被 清理 ， 己 使 用 内 存 会 减少 ， 但 已 分 配给 R 的 内 存 不 会 改变 。 

中 间 变 量 的 删除 要 特别 注意 一 些 (内 存 占用 的 ) 可 变 变 量 。 例 如 R 语言 中 矩阵 的 维度 
可 以 不 是 固定 值 ， 这 为 编程 带 来 了 极 大 的 灵活 性 。 通 过 在 循环 中 调用 cbind 或 rbind 函数 ， 
可 以 为 某 个 矩阵 不 断 增 加 列 或 行 。 由 于 R 变量 需要 申请 连续 的 内 存 ， 因 此 和 矩阵 每 增长 一 次 ， 
即使 赋 给 同名 的 变量 ， 都 需要 新 开辟 一 块 更 大 的 空间 。 假 设 初 始 矩 阵 需要 的 内 存 空 间 为 
100K, 增加 一 行 后 应 该 增长 到 为 101K, 一 直 增 长 到 120K, 那么 R 将 会 分 别 开 辟 100K、101K， 
一 直到 120K 的 连续 堆 内 存 。 由 于 是 同名 变量 ,循环 结束 前 无 法 删除 ， 导 致 内 存 使 用 极 具 增 
长 。 因 此 ， 对 于 可 变 变量 的 内 存 管 理 也 要 格外 注意 。 


二 、 如 何 获 得 帮助 


R 拥有 一 套 完善 而 便利 的 帮助 系统 ， 查 询 帮助 系统 有 几 种 方案 。 

CD 对 于 已 知名 称 的 函数 ， 欲 了 解 该 函数 (例如 查询 函数 solve) 的 详细 使 用 方法 ， 可 
以 用 “?solve” 或 者 “help(solve)” 来 获取 函数 solve 所 属 的 包 、 用 途 、 用 法 、 参 数 说 明 、 返 
回 值 、 参 考 文献 、 相 关 函 数 以 及 范例 。 对 于 由 特殊 字符 或 某 些 关键 词 〈 例 如 让 ) 指定 的 功能 ， 
这 些 参数 必须 用 单 引 号 或 双 引 号 括 起 来 ， 例 如 :“?+'” sk "help(if) ”。 注 意 ， 使 用 help 
函数 或 者 “?” 得 到 帮助 信息 的 前 提 是 该 函数 所 在 的 扩展 包 已 经 加 载 。 

(2) 对 于 未 知名 称 的 函数 ， 如 知道 相关 的 关键 词 〈 例 如 方差 分 析 的 关键 词 analysis of 
variance')， 可 以 使 用 “??'analysis of variance'” 或 者 “help.search ('analysis of variance')” XÆ 
找到 与 搜索 关键 词 相关 的 所 有 函数 ， 然 后 进一步 人 工 查找 目的 函数 。 注 意 使 用 help.search 
函数 或 者 “??” 得 到 帮助 信息 的 前 提 也 是 该 关键 词 相关 的 函数 所 在 的 扩展 包 已 经 加 载 。 

(3) 如 果 没 有 任何 线索 ， 或 者 想 更 大 范围 查找 所 需 函 数 ， 可 以 在 有 互联 网 联接 的 前 提 
下 调用 help.start 函数 进入 R 官网 的 文档 中 心 进一步 浏览 ; 或 者 调用 RSiteSearch 函数 ， 以 某 
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个 关键 词 在 官网 搜索 相关 函数 或 功能 。 

互动 交流 是 快速 高 效 的 学 习 方法 ， 互 联网 上 有 大 量 的 R 和 Bioconductor 邮件 列表 和 讨 
论 群 ， 其 中 最 大 最 主要 一 个 就 是 bioconductor@r-project.org， 它 的 特点 是 全 部 Bioconductor 
的 开发 者 亲自 到 一 线 给 广大 用 户 答疑 ， 回 答 非 常 及 时 和 准确 。 由 于 此 群 人 数 众 多 ， 而 且 开 
发 者 时 间 有 限 ， 请 国内 的 研究 人 员 〈 特 别 是 初学 者 ) 先 利用 国内 资源 寻求 答案 ， 避 免 一 下 
子 大 量 中 国 初 学 者 涌 入 ， 给 开发 者 留 下 不 好 的 印象 。 此 外 ,“ 生 物 信 息 学 天 空 ” 还 绑 定 了 一 
个 千 人 qq 群 ， 方 便 国 内 外 华人 生物 信息 领域 的 研究 人 员 用 母语 交流 ， 本 和 群 中 很 多 人 都 在 使 
用 及 语言 处 理 生物 信息 数据 。 

Bioconductor 的 官方 网 站 提供 了 大 量 丰 富 的 说 明文 档 〈 见 4.1.3)， 其 最 有 特点 的 是 一 种 
叫做 Vignettes 的 大 规模 综合 说 明 性 文档 。 读 者 如 果 想 了 解 一 个 具体 Bioconductor 的 包 的 使 
用 方法 和 具体 的 操作 流程 ， 可 以 直接 下 载 并 阅读 其 附带 的 Vignettes 文档 。Vignettes 的 中 文 
大 意 是 小 插图 、 小 品 文 ， 它 将 软件 包 中 的 函数 有 机 地 结合 起 来 ， 示 例 性 地 提供 该 软件 包 最 
典型 的 使 用 场景 和 代码 。 它 还 有 可 能 提供 该 软件 包 与 R/Bioconductor 中 其 他 软件 包 的 关系 ， 
并 给 出 结合 多 软件 包 使 用 的 范例 。Vignettes 可 以 图 文 并 成 ， 所 以 它 比 之 一 般 的 帮助 文档 更 
具有 可 读 性 。 在 Bioconductor 中 ，Vignettes 是 每 个 包 必 须 包 含 的 文档 (在 R 中 不 要 求 )， 可 
见 其 在 Bioconductor 软件 包 中 的 重要 性 。 如 果 我 们 想 了 解 motifStack 〈 必 须 是 已 安装 的 包 ) 
这 个 包 可 以 做 什么 ， 有 哪些 作者 强调 的 功能 ， 我 们 可 以 使 用 vignette ("motifStack") 来 获得 
其 综合 说 明文 档 。 
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rudio 的 操作 。 这 个 小 程序 首先 生成 了 100 个 正 态 分 布 的 随 
估计 曲线 。 














set.seed/1234 REMUER: 人 Xx 可 以 重 夏 
x = rnorm(100) 志和 生成 100 个 符合 布 (总 体 平均 值 为 0%， 标准 差 为 1 ) Bim f& 
## 样 


9 









mean. x) 





E od HB d fPlots& D « EMESA rh iz d — - ETSI E500 — 7 Ei e 





157 ```{r fig.width-7, fig.height-6] 


histi(x,freq-*,col- grey ,border- white" 


lines: density x, ,lty-2,lwd-2 





21 
22 上 我 们 运行 以 下 终端 命令 ， 生 成 Word 文 Bimyscript.docx o 


23 

24- ```{r} 

25 

26 [shell("pandoc myscript.md -o myscript.docx" 
-a 


图 1-15 RStudio 中 文本 、 代 码 和 注释 的 混 排 
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图 5-8 质量 控制 总 览 图 
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图 5-9 CLL 数据 集 的 权重 残 差 图 
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5-10 不 可 接受 的 权重 残 差 图 示例 
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图 5-17 ”信和 号 强度 分 布 图 的 直方 图 


gcRMA MA plot 


Orlginal MA Plot 





sreo 9 


EERI 


pong 





图 5-19 gcRMA 处 理 前 后 的 MA 图 
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图 5-20 差 
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图 5-22 显著 富 集 的 KEGG 通路 的 关系 图 
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5-23 显著 富 集 的 KEGG 通路 的 热 图 
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6-1 RNA-seq 文库 制备 过 程 
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S1: 下 向 测序 引物 ，S2: 反 向 测序 引物 ，Sb: Barcode 测 序 引 物 


图 6-2 待 测序 列 的 结构 


图 6-4 质量 分 数 ASCII 码 取 值 范围 


A. 
Common duplicate reads might provide clues to the source of over- 
represented sequences. Some of these reads are filtered by the alignment 


algorithms; other duplicate reads might point to sample preparation issues. 


ShortRead:::.fregSeqnuences(ga, "resad") 


semence 

CICCACACIIGCAIGCAIGICCACCCICAGCTACAAAGCTICCCICACIIC 
CIIAAICIIGICCAIGAGICCCIICIICICATIGICCTICCICICCIACATI 
CICAAICICAICACCAAAACGGCCGCCAGIGATITCCGICISGIAGATIACC 
CIGIICGCIACCAIGAICACCSCCAGGCAGCTICICCITGAICIICICCAC 
AGAARAACIIAGIAGCCATCGGGCIIATGIGCGATGAAACIGAIACATIGC 
CCGSSAACACACSICITACCATCACACCIAGIAGTATAAIAAAAGCCAGGA 
SICGATIICICAACGIISCAIGAGIIGCAGIIGCAGCIIGAGCCGCAIGAG 
CIGSIAACIIGICCIIAAICIIGICCAIGAGICCCIICIICICAIGICCIT 
GGGGACICCGAGAGCIICGAGAGAGACIITAACITITAGCCAIGICIICCGI 
AIAIATICCSAGCIGCICGIAICITIIGCAAIAGAIAGCIGCITGAGCAACA 
CCACACIIGCAIGCATGICCACCCICAGCIACAAAGCITCCCICACITCCA 
CICAAGCITAICCICIICIICAAAIICCIGCSCICCGCIACICIGGGIGAT 
C8988GAGCGATIGIICICACSGIAGGGGAAACCGIGCICCAACICGAAIT 
888AGCGATIGIICICACGGIAGGGGAAACCSIGCICCAACICGAATICCA 
GIGATITICCGICIGIAGATIACCGAAAACCICSGITGCGATIAGAACGAICC 
GCICAAICICAICACCAAAACGGCCGCCAGIGATIICCGICIGIAGATIAC 
C888AACACACSICTIIACCAICACACCTIAGIAGIAIAATARAAGCCASGGAG 
CG88ICCICAACGIAAATACCAGAGAIIIGAAIGAIGICIICACCCICAGC 
CICSITITICCCASGAATCISGCCGAGGGCCCIAICICTATAGACAAGIAACA 
GICGATIICICAACGICGIAIGAGCIIGCAGIIGCAGCIGCIGCCGCATGAG 


on duplicate reads after fütering 


ShbortRead:::.fregSeqoences(ga, "filrtered") 


on aligned duplicate reads are 


Shortřead:; ::.,freg5equences iga, "aligned") 
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图 6-8 高 频 读 段 信息 和 四 种 碱 基 逐 点 质量 图 





图 6-9 ” 读 段 逐 点 质量 图 













100 
AGGCA 
GGCAC 
90 A 
CTGTAGGCACCATCAATTCGTATGCCGTCTTCTGCTT ASG 
ao T 前 10 个 高 频 读 段 et 
" TAGGC TGCTAGCTTATCAGACTGATGTTGACTGTAGGCACC 
AGGCA 
cacac  TECCTGTAGGCACCATCAATTOGTATGOCGTCTTCT 
60 ACC TGCTCAGTGCACTACAGAACTTTGTCTGTAGGCACC 
TGCTGAGGTAGTAGATTGTATAGTTCTGTAGGCACC 
50 
TGCTGAGGTAGTAGATTGTATAGTCTGTAGGCACCA 
40 TGCTGTAACAGCAACTCCATGTGGAACTGTAGGCAC 
so TGGCAAGCTGCCAGTTGAAGAACTGTCTGTAGGCAC 
i TGCTGAGGTAGTAGGTTGTATGGTTCTGTAGGCACC 


TGCTGGCTCAGTTCAGCAGGAACAGTCTGTAGGCAC 
10 
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Position in read (bp) 


图 6-11 查看 3” 端 接头 


